Multi modal – Page 16 – GrooveSquid.com

July 13, 2025

A Text-to-Game Engine for UGC-Based Role-Playing Gamesby Lei Zhang, Xuezheng Peng, Shuyi Yang, Feiyang WangFirst…

July 13, 2025

Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagramby Ming-Liang Zhang, Zhong-Zhi…

July 13, 2025

CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understandingby Wenhao Xu, Wenming Weng, Yueyi Zhang, Zhiwei…

July 13, 2025

Infer Induced Sentiment of Comment Response to Video: A New Task, Dataset and Baselineby Qi…

July 13, 2025

VIMI: Grounding Video Generation through Multi-modal Instructionby Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen,…

July 13, 2025

Contrastive Learning of Preferences with a Contextual InfoNCE Lossby Timo Bertram, Johannes Fürnkranz, Martin MüllerFirst…

July 13, 2025

BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Spaceby Yumeng Zhang,…

July 13, 2025

TransMA: an explainable multi-modal deep learning model for predicting properties of ionizable lipid nanoparticles in…

July 13, 2025

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planningby Min Zhang,…

July 13, 2025

MMedAgent: Learning to Use Medical Tools with Multi-modal Agentby Binxu Li, Tiankai Yan, Yuanting Pan,…