Image captioning – Page 7 – GrooveSquid.com

July 13, 2025

Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Trainingby Longtian Qiu, Shan Ning, Xuming…

July 13, 2025

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignmentby Ziping Ma, Furong Xu, Jian…

July 13, 2025

Object-oriented backdoor attack against image captioningby Meiling Li, Nan Zhong, Xinpeng Zhang, Zhenxing Qian, Sheng…

July 13, 2025

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Featuresby Van-Quang Nguyen, Masanori Suganuma,…

July 13, 2025

ErgoChat: a Visual Query System for the Ergonomic Risk Assessment of Construction Workersby Chao Fan,…

July 13, 2025

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioningby Taewhan Kim, Soeun Lee, Si-Woo Kim,…

July 13, 2025

Survey of Large Multimodal Model Datasets, Application Categories and Taxonomyby Priyaranjan Pattnayak, Hitesh Laxmichand Patel,…

July 13, 2025

GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioningby Teja…

July 13, 2025

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Modelsby Zijun…

July 13, 2025

Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Modelsby Sri Harsha Dumpala, David Arps, Sageev…