Token – Page 48 – GrooveSquid.com

July 13, 2025

Round and Round We Go! What makes Rotary Positional Encodings useful?by Federico Barbero, Alex Vitvitskyi,…

July 13, 2025

Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limitby Oleg…

July 13, 2025

Accelerating Diffusion Transformers with Token-wise Feature Cachingby Chang Zou, Xuyang Liu, Ting Liu, Siteng Huang,…

July 13, 2025

SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipeby Yuxin Xiao, Shujian Zhang, Wenxuan Zhou,…

July 13, 2025

Differential Transformerby Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu…

July 13, 2025

PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantizationby Mengzhao Chen, Yi Liu,…

July 13, 2025

DEPT: Decoupled Embeddings for Pre-training Language Modelsby Alex Iacob, Lorenzo Sani, Meghdad Kurmanji, William F.…

July 13, 2025

TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attentionby Lijie Yang, Zhihao Zhang,…

July 13, 2025

SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masksby Fenia Christopoulou, Ronald Cardenas, Gerasimos…

July 13, 2025

Timer-XL: Long-Context Transformers for Unified Time Series Forecastingby Yong Liu, Guo Qin, Xiangdong Huang, Jianmin…