Perplexity – Page 13 – GrooveSquid.com

July 13, 2025

Curriculum Learning with Quality-Driven Data Selectionby Biao Wu, Fang Meng, Ling ChenFirst submitted to arxiv…

July 13, 2025

Training-Free Exponential Context Extension via Cascading KV Cacheby Jeffrey Willette, Heejun Lee, Youngwan Lee, Myeongjae…

July 13, 2025

Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradientby Yuan Gao, Zujing…

July 13, 2025

Markov Constraint as Large Language Model Surrogateby Alexandre Bonlarron, Jean-Charles RéginFirst submitted to arxiv on:…

July 13, 2025

ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Modelsby Xiang Meng, Kayhan…

July 13, 2025

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Modelsby…

July 13, 2025

SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Informationby Kaiye Zhou, Shucheng Wang, Jun XuFirst submitted…

July 13, 2025

Parallelizing Linear Transformers with the Delta Rule over Sequence Lengthby Songlin Yang, Bailin Wang, Yu…

July 13, 2025

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterizationby Haoran You, Yipin Guo, Yichao Fu, Wei…

July 13, 2025

Block Transformer: Global-to-Local Language Modeling for Fast Inferenceby Namgyu Ho, Sangmin Bae, Taehyeon Kim, Hyunjik…