Pretraining – Page 14 – GrooveSquid.com

July 13, 2025

Is It a Free Lunch for Removing Outliers during Pretraining?by Baohao Liao, Christof MonzFirst submitted…

July 13, 2025

Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearningby Yang Zhao,…

July 13, 2025

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Modelsby Gagan Bhatia, El Moatez…

July 13, 2025

Data Engineering for Scaling Language Models to 128K Contextby Yao Fu, Rameswar Panda, Xinyao Niu,…

July 13, 2025

Hardware Phi-1.5B: A Large Language Model Encodes Hardware Domain Specific Knowledgeby Weimin Fu, Shijie Li,…

July 13, 2025

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokensby Jiacheng Liu, Sewon Min, Luke…

July 13, 2025

BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretrainingby Wen Liang, Youzhi…

July 13, 2025

GeoDecoder: Empowering Multimodal Map Understandingby Feng Qi, Mian Dai, Zixian Zheng, Chao WangFirst submitted to…

July 13, 2025

Unlearning Traces the Influential Training Data of Language Modelsby Masaru Isonuma, Ivan TitovFirst submitted to…

July 13, 2025

RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanizationby Jaavid Aktar Husain, Raj…