Multi modal – Page 2 – GrooveSquid.com

July 13, 2025

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Modelsby Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki,…

July 13, 2025

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioningby Yunbin Tu, Liang Li, Li…

July 13, 2025

CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Modelsby Zihui Cheng,…

July 13, 2025

From An LLM Swarm To A PDDL-Empowered HIVE: Planning Self-Executed Instructions In A Multi-Modal Jungleby…

July 13, 2025

Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speechby Rui Liu, Shuwei He, Yifan…

July 13, 2025

Distribution-Consistency-Guided Multi-modal Hashingby Jin-Yu Liu, Xian-Ling Mao, Tian-Yi Che, Rong-Cheng TuFirst submitted to arxiv on:…

July 13, 2025

Geo-LLaVA: A Large Multi-Modal Model for Solving Geometry Math Problems with Meta In-Context Learningby Shihao…

July 13, 2025

TANGO: Training-free Embodied AI Agents for Open-world Tasksby Filippo Ziliotto, Tommaso Campari, Luciano Serafini, Lamberto…

July 13, 2025

Visual Object Tracking across Diverse Data Modalities: A Reviewby Mengmeng Wang, Teli Ma, Shuo Xin,…

July 13, 2025

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactionsby Pan Zhang, Xiaoyi…