Token – Page 58 – GrooveSquid.com

July 13, 2025

Coupling Speech Encoders with Downstream Text Modelsby Ciprian Chelba, Johan SchalkwykFirst submitted to arxiv on:…

July 13, 2025

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?by Jonathan Hayase, Alisa…

July 13, 2025

RazorAttention: Efficient KV Cache Compression Through Retrieval Headsby Hanlin Tang, Yang Lin, Jing Lin, Qingsen…

July 13, 2025

Long Input Sequence Network for Long Time Series Forecastingby Chao Ma, Yikai Hou, Xiang Li,…

July 13, 2025

Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Modelsby Alliot Nagle, Adway…

July 13, 2025

When Can Transformers Count to n?by Gilad Yehudai, Haim Kaplan, Asma Ghandeharioun, Mor Geva, Amir…

July 13, 2025

Efficient Visual Transformer by Learnable Token Mergingby Yancheng Wang, Yingzhen YangFirst submitted to arxiv on:…

July 13, 2025

LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inferenceby Qichen Fu, Minsik Cho, Thomas…

July 13, 2025

Identifying the Source of Generation for Large Language Modelsby Bumjin Park, Jaesik ChoiFirst submitted to…

July 13, 2025

Patch-Level Training for Large Language Modelsby Chenze Shao, Fandong Meng, Jie ZhouFirst submitted to arxiv…