Token – Page 5 – GrooveSquid.com

July 13, 2025

TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Abilityby…

July 13, 2025

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluatorby Fan Yang, Ru Zhen, Jianing Wang, Yanhao…

July 13, 2025

ShowUI: One Vision-Language-Action Model for GUI Visual Agentby Kevin Qinghong Lin, Linjie Li, Difei Gao,…

July 13, 2025

freePruner: A Training-free Approach for Large Multimodal Model Accelerationby Bingxin Xu, Yuzhang Shang, Yunhao Ge,…

July 13, 2025

Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancyby Te Yang, Jian Jia, Xiangyu…

July 13, 2025

FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classificationby Zhengrui Guo, Conghao Xiong,…

July 13, 2025

XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Modelsby Yixin Dong, Charlie F.…

July 13, 2025

FoPru: Focal Pruning for Efficient Large Vision-Language Modelsby Lei Jiang, Weizhe Huang, Tongxuan Liu, Yuting…

July 13, 2025

LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancementby Siwen…

July 13, 2025

Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answeringby Aryan Keluskar,…