Multi modal – Page 23 – GrooveSquid.com

July 13, 2025

ClickDiffusion: Harnessing LLMs for Interactive Precise Image Editingby Alec Helbling, Seongmin Lee, Polo ChauFirst submitted…

July 13, 2025

Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learningby Andrei Semenov, Vladimir Ivanov, Aleksandr Beznosikov,…

July 13, 2025

SCANNER: Knowledge-Enhanced Approach for Robust Multi-modal Named Entity Recognition of Unseen Entitiesby Hyunjong Ok, Taeho…

July 13, 2025

A Review of Multi-Modal Large Language and Vision Modelsby Kilian Carolan, Laura Fennelly, Alan F.…

July 13, 2025

FineFake: A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detectionby Ziyi Zhou, Xiaoming Zhang, Litian…

July 13, 2025

LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interactionby Bo Zou, Chao Yang, Yu Qiao, Chengbin…

July 13, 2025

Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognitionby Yash Jain, David Chan, Pranav Dheram, Aparna Khare,…

July 13, 2025

Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Drivingby Akshay Gopalkrishnan, Ross…

July 13, 2025

ReMamber: Referring Image Segmentation with Mamba Twisterby Yuhuan Yang, Chaofan Ma, Jiangchao Yao, Zhun Zhong,…

July 13, 2025

Solution for Emotion Prediction Competition of Workshop on Emotionally and Culturally Intelligent AIby Shengdong Xu,…