Multi modal – Page 7 – GrooveSquid.com

April 15, 2025

Voice-Enabled AI Agents can Perform Common Scamsby Richard Fang, Dylan Bowman, Daniel KangFirst submitted to…

April 15, 2025

Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generationby Jihyo Kim, Seulbi…

April 15, 2025

Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmarkby Himanshu Gupta, Shreyas Verma, Ujjwala Anantheswaran, Kevin Scaria,…

April 15, 2025

MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignmentby Wei Ai, Wen Deng, Hongyi…

April 15, 2025

A Pattern to Align Them All: Integrating Different Modalities to Define Multi-Modal Entitiesby Gianluca Apriceno,…

April 15, 2025

VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AIby Sijie Cheng, Kechen Fang, Yangyang Yu,…

April 15, 2025

Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editingby Yoonjeon…

April 15, 2025

Eliminating the Language Bias for Visual Question Answering with fine-grained Causal Interventionby Ying Liu, Ge…

April 15, 2025

Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Modelsby Juseong Jin, Chang Wook…

April 15, 2025

Exploring Efficient Foundational Multi-modal Models for Video Summarizationby Karan Samel, Apoorva Beedu, Nitish Sontakke, Irfan…