Artificial intelligence – Page 71

July 13, 2025

Summary of Instancecap: Improving Text-to-video Generation Via Instance-aware Structured Caption, by Tiehan Fan et al.

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Captionby Tiehan Fan, Kepan Nan, Rui Xie, Penghao…

July 13, 2025

Summary of Towards a Multimodal Large Language Model with Pixel-level Insight For Biomedicine, by Xiaoshuang Huang et al.

Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicineby Xiaoshuang Huang, Lingdong Shen,…

July 13, 2025

Summary of Advancing Attribution-based Neural Network Explainability Through Relative Absolute Magnitude Layer-wise Relevance Propagation and Multi-component Evaluation, by Davor Vukadin et al.

Advancing Attribution-Based Neural Network Explainability through Relative Absolute Magnitude Layer-Wise Relevance Propagation and Multi-Component Evaluationby…

July 13, 2025

Summary of Gr-nlp-toolkit: An Open-source Nlp Toolkit For Modern Greek, by Lefteris Loukas et al.

GR-NLP-TOOLKIT: An Open-Source NLP Toolkit for Modern Greekby Lefteris Loukas, Nikolaos Smyrnioudis, Chrysa Dikonomaki, Spyros…

July 13, 2025

Summary of Accurate Water Level Monitoring in Awd Rice Cultivation Using Convolutional Neural Networks, by Ahmed Rafi Hasan et al.

Accurate Water Level Monitoring in AWD Rice Cultivation Using Convolutional Neural Networksby Ahmed Rafi Hasan,…

July 13, 2025

Summary of Advancing Single- and Multi-task Text Classification Through Large Language Model Fine-tuning, by Hang Zhao et al.

Advancing Single- and Multi-task Text Classification through Large Language Model Fine-tuningby Hang Zhao, Qile P.…

July 13, 2025

Summary of Roomtour3d: Geometry-aware Video-instruction Tuning For Embodied Navigation, by Mingfei Han et al.

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigationby Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova,…

July 13, 2025

Summary of Image Retrieval Methods in the Dissimilarity Space, by Madhu Kiran et al.

Image Retrieval Methods in the Dissimilarity Spaceby Madhu Kiran, Kartikey Vishnu, Rafael M. O. Cruz,…

July 13, 2025

Summary of Physics Context Builders: a Modular Framework For Physical Reasoning in Vision-language Models, by Vahid Balazadeh et al.

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Modelsby Vahid Balazadeh, Mohammadmehdi…

July 13, 2025

Summary of Euclid: Supercharging Multimodal Llms with Synthetic High-fidelity Visual Descriptions, by Jiarui Zhang et al.

Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptionsby Jiarui Zhang, Ollie Liu, Tianyu Yu,…