Grounding – Page 17 – GrooveSquid.com

July 13, 2025

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuningby Haotian Zhang, Mingfei Gao, Zhe Gan,…

July 13, 2025

Visual Prompting in Multimodal Large Language Models: A Surveyby Junda Wu, Zhehao Zhang, Yu Xia,…

July 13, 2025

Transformer with Controlled Attention for Synchronous Motion Captioningby Karim Radouane, Sylvie Ranwez, Julien Lagarde, Andon…

July 13, 2025

What Makes a Maze Look Like a Maze?by Joy Hsu, Jiayuan Mao, Joshua B. Tenenbaum,…

July 13, 2025

Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modelingby…

July 13, 2025

Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understandingby Yunze Man, Shuhong Zheng, Zhipeng…

July 13, 2025

DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classificationby Hanna Abi…

July 13, 2025

A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Trainingby Bilal Faye, Binta Sow, Hanane…

July 13, 2025

Neural Reward Machinesby Elena Umili, Francesco Argenziano, Roberto CapobiancoFirst submitted to arxiv on: 16 Aug…

July 13, 2025

Infusing Environmental Captions for Long-Form Video Language Groundingby Hyogun Lee, Soyeon Hong, Mujeen Sung, Jinwoo…