Multi modal – Page 11 – GrooveSquid.com

July 13, 2025

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architectureby Xidong Wang, Dingjie…

July 13, 2025

Action-Based ADHD Diagnosis in Videoby Yichun Li, Yuxing Yang, Syed Nohsen NaqviFirst submitted to arxiv…

July 13, 2025

Multi-modal Situated Reasoning in 3D Scenesby Xiongkun Linghu, Jiangyong Huang, Xuesong Niu, Xiaojian Ma, Baoxiong…

July 13, 2025

SCOPE: Sign Language Contextual Processing with Embedding from LLMsby Yuqi Liu, Wenqian Zhang, Sihan Ren,…

July 13, 2025

A Survey for Large Language Models in Biomedicineby Chong Wang, Mengyao Li, Junjun He, Zhongruo…

July 13, 2025

Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoningby Xiaoye Qu,…

July 13, 2025

M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretationby Jonggwon Park,…

July 13, 2025

Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Inputby Jiajun Liu, Yibing Wang, Hanghang Ma,…

July 13, 2025

VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activitiesby Shusaku Egami,…

July 13, 2025

LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Modelsby Qihang Ge, Wei Sun, Yu Zhang,…