Pretraining – Page 23 – GrooveSquid.com

July 13, 2025

Scaling Laws for Multilingual Language Modelsby Yifei He, Alon Benhaim, Barun Patra, Praneetha Vaddamanu, Sanchit…

July 13, 2025

Adaptive Data Optimization: Dynamic Sample Selection with Scaling Lawsby Yiding Jiang, Allan Zhou, Zhili Feng,…

July 13, 2025

TSDS: Data Selection for Task-Specific Model Finetuningby Zifan Liu, Amin Karbasi, Theodoros RekatsinasFirst submitted to…

July 13, 2025

Fine-tuning can Help Detect Pretraining Data from Large Language Modelsby Hengxiang Zhang, Songxin Zhang, Bingyi…

July 13, 2025

Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learningby Etai Littwin, Vimal Thilak, Anand…

July 13, 2025

GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphsby Yun Zhu, Haizhou Shi, Xiaotang…

July 13, 2025

GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluationby Taha Aksu, Gerald Woo, Juncheng…

July 13, 2025

LoLCATs: On Low-Rank Linearizing of Large Language Modelsby Michael Zhang, Simran Arora, Rahul Chalamala, Alan…

July 13, 2025

TapWeight: Reweighting Pretraining Objectives for Task-Adaptive Pretrainingby Ruiyi Zhang, Sai Ashish Somayajula, Pengtao XieFirst submitted…

July 13, 2025

Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defenseby Rui Min, Zeyu Qin, Nevin…