Encoder – Page 2 – GrooveSquid.com

July 13, 2025

HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Modelsby Shiding Zhu, Wenhui Dong,…

July 13, 2025

A4-Unet: Deformable Multi-Scale Attention Network for Brain Tumor Segmentationby Ruoxin Wang, Tianyi Tang, Haiming Du,…

July 13, 2025

Automatic Tongue Delineation from MRI Images with a Convolutional Neural Network Approachby Karyna Isaieva, Yves…

July 13, 2025

Parametric-ControlNet: Multimodal Control in Foundation Models for Precise Engineering Design Synthesisby Rui Zhou, Yanxia Zhang,…

July 13, 2025

Using Images to Find Context-Independent Word Representations in Vector Spaceby Harsh KumarFirst submitted to arxiv…

July 13, 2025

Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuningby Neale Ratzlaff, Man Luo, Xin…

July 13, 2025

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generationby Liao Qu, Huichao Zhang, Yiheng Liu,…

July 13, 2025

[CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Fasterby…

July 13, 2025

MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Costby Sen Xing, Muyan…

July 13, 2025

StableAnimator: High-Quality Identity-Preserving Human Image Animationby Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi…