VIT – Page 3 – GrooveSquid.com

July 13, 2025

P4Q: Learning to Prompt for Quantization in Visual-language Modelsby Huixin Sun, Runqi Wang, Yanjing Li,…

July 13, 2025

Intrapartum Ultrasound Image Segmentation of Pubic Symphysis and Fetal Head Using Dual Student-Teacher Framework with…

July 13, 2025

LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolutionby Jeongsoo Kim, Jongho Nang, Junsuk ChoeFirst submitted…

July 13, 2025

Equitable Skin Disease Prediction Using Transfer Learning and Domain Adaptationby Sajib Acharjee Dip, Kazi Hasan…

July 13, 2025

LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Modelsby Jingyi Wang, Jianzhong Ju,…

July 13, 2025

Symmetric masking strategy enhances the performance of Masked Image Modelingby Khanh-Binh Nguyen, Chae Jung ParkFirst…

July 13, 2025

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Modelsby Kazi Hasan Ibn Arif,…

July 13, 2025

Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Frameworkby Jiandong…

July 13, 2025

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitationby Weiqi Feng, Yangrui Chen, Shaoyu Wang,…

July 13, 2025

DeMansia: Mamba Never Forgets Any Tokensby Ricky FangFirst submitted to arxiv on: 4 Aug 2024CategoriesMain:…