Inference – Page 167 – GrooveSquid.com

July 13, 2025

Beyond KV Caching: Shared Attention for Efficient LLMsby Bingli Liao, Danilo Vasconcellos VargasFirst submitted to…

July 13, 2025

LookupViT: Compressing visual information to a limited number of tokensby Rajat Koner, Gagan Jain, Prateek…

July 13, 2025

Mamba-PTQ: Outlier Channels in Recurrent Large Language Modelsby Alessandro Pierro, Steven AbreuFirst submitted to arxiv…

July 13, 2025

Analyzing the Generalization and Reliability of Steering Vectorsby Daniel Tan, David Chanin, Aengus Lynch, Dimitrios…

July 13, 2025

UTG: Towards a Unified View of Snapshot and Event Based Models for Temporal Graphsby Shenyang…

July 13, 2025

When can transformers compositionally generalize in-context?by Seijin Kobayashi, Simon Schug, Yassir Akram, Florian Redhardt, Johannes…

July 13, 2025

Spectra: Surprising Effectiveness of Pretraining Ternary Language Models at Scaleby Ayush Kaushal, Tejas Vaidhya, Arnab…

July 13, 2025

Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectorsby Matt Gorbett,…

July 13, 2025

Enhancing Split Computing and Early Exit Applications through Predefined Sparsityby Luigi Capogrosso, Enrico Fraccaroli, Giulio…

July 13, 2025

PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculationby Branden Butler, Sixing Yu, Arya Mazaheri, Ali…