Multi modal – Page 8 – GrooveSquid.com

July 13, 2025

Exploring Efficient Foundational Multi-modal Models for Video Summarizationby Karan Samel, Apoorva Beedu, Nitish Sontakke, Irfan…

July 13, 2025

EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignmentby Yifei Xing, Xiangyuan Lan, Ruiping Wang,…

July 13, 2025

On Instruction-Finetuning Neural Machine Translation Modelsby Vikas Raunak, Roman Grundkiewicz, Marcin Junczys-DowmuntFirst submitted to arxiv…

July 13, 2025

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionalityby Youngtaek Oh, Jae Won Cho,…

July 13, 2025

CalliffusionV2: Personalized Natural Calligraphy Generation with Flexible Multi-modal Controlby Qisheng Liao, Liang Li, Yulang Fei,…

July 13, 2025

Image First or Text First? Optimising the Sequencing of Modalities in Large Language Model Prompting…

July 13, 2025

FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Modelsby Zhipei Xu, Xuanyu…

July 13, 2025

Multimodal Auto Validation For Self-Refinement in Web Agentsby Ruhana Azam, Tamer Abuelsaad, Aditya Vempaty, Ashish…

July 13, 2025

Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Modelsby Yizhou Huang,…

July 13, 2025

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformerby Zhen Han, Zeyinzi Jiang, Yulin…