Multi modal – Page 13 – GrooveSquid.com

July 13, 2025

IIU: Independent Inference Units for Knowledge-based Visual Question Answeringby Yili Li, Jing Yu, Keke Gai,…

July 13, 2025

Social Debiasing for Fair Multi-modal LLMsby Harry Cheng, Yangyang Guo, Qingpei Guo, Ming Yang, Tian…

July 13, 2025

Revisiting Multi-Modal LLM Evaluationby Jian Lu, Shikhar Srivastava, Junyu Chen, Robik Shrestha, Manoj Acharya, Kushal…

July 13, 2025

Disentangled Noisy Correspondence Learningby Zhuohang Dang, Minnan Luo, Jihong Wang, Chengyou Jia, Haochen Han, Herun…

July 13, 2025

Semantic Skill Grounding for Embodied Instruction-Following in Cross-Domain Environmentsby Sangwoo Shin, Seunghyun Kim, Youngsoo Jang,…

July 13, 2025

WAS: Dataset and Methods for Artistic Text Segmentationby Xudong Xie, Yuzhe Li, Yang Liu, Zhifei…

July 13, 2025

Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Networkby Bin Cheng, Jiaxuan LuFirst submitted to arxiv on:…

July 13, 2025

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cuesby Sara Sarto, Marcella Cornia,…

July 13, 2025

Rethinking RGB-D Fusion for Semantic Segmentation in Surgical Datasetsby Muhammad Abdullah Jamal, Omid MohareriFirst submitted…

July 13, 2025

A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendationby Zixuan Yi, Iadh OunisFirst submitted…