Multi modal – Page 20 – GrooveSquid.com

July 13, 2025

MM-Mixing: Multi-Modal Mixing Alignment for 3D Understandingby Jiaze Wang, Yi Wang, Ziyu Guo, Renrui Zhang,…

July 13, 2025

Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Modelby Wenbing Li, Hang Zhou, Junqing…

July 13, 2025

Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perceptionby Xiaohao Xu, Ye…

July 13, 2025

Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learningby…

July 13, 2025

VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Modelsby Zejun Li, Ruipu Luo, Jiwen…

July 13, 2025

Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNetby Loris Giulivi, Giacomo BoracchiFirst submitted to…

July 13, 2025

Explaining Multi-modal Large Language Models by Analyzing their Vision Perceptionby Loris Giulivi, Giacomo BoracchiFirst submitted…

July 13, 2025

G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Modelsby Pengyue Jia,…

July 13, 2025

Let’s Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text…

July 13, 2025

Awesome Multi-modal Object Trackingby Chunhui Zhang, Li Liu, Hao Wen, Xi Zhou, Yanfeng WangFirst submitted…