Scaling laws – Page 3 – GrooveSquid.com

July 13, 2025

No Free Lunch From Random Feature Ensemblesby Benjamin S. Ruben, William L. Tong, Hamza Tahir…

July 13, 2025

Scaling Law for Language Models Training Considering Batch Sizeby Xian Shuai, Yiding Wang, Yimeng Wu,…

July 13, 2025

Differential learning kinetics govern the transition from memorization to generalization during in-context learningby Alex Nguyen,…

July 13, 2025

Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Modelsby Yanxi Chen,…

July 13, 2025

Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokensby Xu…

July 13, 2025

Towards Precise Scaling Laws for Video Diffusion Transformersby Yuanyang Yin, Yaqi Zhao, Mingwu Zheng, Ke…

July 13, 2025

Scaling Laws for Black box Adversarial Attacksby Chuan Liu, Huanran Chen, Yichi Zhang, Yinpeng Dong,…

July 13, 2025

Loss-to-Loss Prediction: Scaling Laws for All Datasetsby David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach,…

July 13, 2025

Ultra-Sparse Memory Networkby Zihao Huang, Qiyang Min, Hongzhi Huang, Defa Zhu, Yutao Zeng, Ran Guo,…

July 13, 2025

Circuit Complexity Bounds for RoPE-based Transformer Architectureby Bo Chen, Xiaoyu Li, Yingyu Liang, Jiangxuan Long,…