Image captioning – Page 2 – GrooveSquid.com

July 13, 2025

The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioningby Longju Bai, Angana Borah,…

July 13, 2025

Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuningby Wenke Huang, Jian…

July 13, 2025

RS-MoE: A Vision-Language Model with Mixture of Experts for Remote Sensing Image Captioning and Visual…

July 13, 2025

Nearest Neighbor Normalization Improves Multimodal Retrievalby Neil Chowdhury, Franklin Wang, Sumedh Shenoy, Douwe Kiela, Sarah…

July 13, 2025

Large Language Model Benchmarks in Medical Tasksby Lawrence K.Q. Yan, Qian Niu, Ming Li, Yichao…

July 13, 2025

A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasksby Hoin Jung, Taeuk Jang,…

July 13, 2025

Core Tokensets for Data-efficient Sequential Training of Transformersby Subarnaduti Paul, Manuel Brack, Patrick Schramowski, Kristian…

July 13, 2025

CAPEEN: Image Captioning with Early Exits and Knowledge Distillationby Divya Jyoti Bajpai, Manjesh Kumar HanawalFirst…

July 13, 2025

DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioningby Kazuki Matsuda, Yuiga Wada, Komei SugiuraFirst…

July 13, 2025

Attention Prompting on Image for Large Vision-Language Modelsby Runpeng Yu, Weihao Yu, Xinchao WangFirst submitted…