Perplexity – Page 14 – GrooveSquid.com

July 13, 2025

MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantizationby Aozhong Zhang, Naigang Wang, Yanxia Deng, Xin…

July 13, 2025

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Modelsby Zachary Ankner, Cody Blakeney, Kartik…

July 13, 2025

On the Noise Robustness of In-Context Learning for Text Generationby Hongfu Gao, Feipeng Zhang, Wenyu…

July 13, 2025

SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Modelsby Wei Huang, Haotong Qin, Yangdong Liu, Yawei…

July 13, 2025

HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Modelsby Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Aaron…

July 13, 2025

Improving Transformers with Dynamically Composable Multi-Head Attentionby Da Xiao, Qingye Meng, Shengping Li, Xingyuan YuanFirst…

July 13, 2025

State-Free Inference of State-Space Models: The Transfer Function Approachby Rom N. Parnichkun, Stefano Massaroli, Alessandro…

July 13, 2025

Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-trainingby Zexuan Zhong, Mengzhou Xia, Danqi Chen,…

July 13, 2025

M-DEW: Extending Dynamic Ensemble Weighting to Handle Missing Valuesby Adam Catto, Nan Jia, Ansaf Salleb-Aouissi,…

July 13, 2025

Benchmarking Benchmark Leakage in Large Language Modelsby Ruijie Xu, Zengzhi Wang, Run-Ze Fan, Pengfei LiuFirst…