Pretraining – Page 27 – GrooveSquid.com

July 13, 2025

Improving Pretraining Data Using Perplexity Correlationsby Tristan Thrush, Christopher Potts, Tatsunori HashimotoFirst submitted to arxiv…

July 13, 2025

VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generationby Yecheng Wu, Zhuoyang Zhang, Junyu…

July 13, 2025

How Does Code Pretraining Affect Language Model Task Performance?by Jackson Petty, Sjoerd van Steenkiste, Tal…

July 13, 2025

Probing self-attention in self-supervised speech models for cross-linguistic differencesby Sai Gopinath, Joselyn RodriguezFirst submitted to…

July 13, 2025

A Lesion-aware Edge-based Graph Neural Network for Predicting Language Ability in Patients with Post-stroke Aphasiaby…

July 13, 2025

Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruningby Soumajyoti Sarkar, Leonard…

July 13, 2025

Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problemsby…

July 13, 2025

LeMON: Learning to Learn Multi-Operator Networksby Jingmin Sun, Zecheng Zhang, Hayden SchaefferFirst submitted to arxiv…

July 13, 2025

Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is…

July 13, 2025

Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methodsby Xinyang Hu, Fengzhuo Zhang, Siyu Chen, Zhuoran…