Token – Page 38 – GrooveSquid.com

July 13, 2025

Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Maskingby Marco Federici, Davide Belli, Mart…

July 13, 2025

Token Cropr: Faster ViTs for Quite a Few Tasksby Benjamin Bergner, Christoph Lippert, Aravindh MahendranFirst…

July 13, 2025

Mixture of Cache-Conditional Experts for Efficient Mobile Device Inferenceby Andrii Skliar, Ties van Rozendaal, Romain…

July 13, 2025

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findingsby Qiong Wu,…

July 13, 2025

Attamba: Attending To Multi-Token Statesby Yash Akhauri, Safeen Huda, Mohamed S. AbdelfattahFirst submitted to arxiv…

July 13, 2025

Ensuring Fair LLM Serving Amid Diverse Applicationsby Redwan Ibne Seraj Khan, Kunal Jain, Haiying Shen,…

July 13, 2025

Improving Next Tokens via Second-to-Last Predictions with Generate and Refineby Johannes SchneiderFirst submitted to arxiv…

July 13, 2025

Transforming NLU with Babylon: A Case Study in Development of Real-time, Edge-Efficient, Multi-Intent Translation System…

July 13, 2025

Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text…

July 13, 2025

HeadRouter: A Training-free Image Editing Framework for MM-DiTs by Adaptively Routing Attention Headsby Yu Xu,…