Language model – Page 70 – GrooveSquid.com

July 13, 2025

How to Train Long-Context Language Models (Effectively)by Tianyu Gao, Alexander Wettig, Howard Yen, Danqi ChenFirst…

July 13, 2025

Dynamic Gradient Alignment for Online Data Mixingby Simin Fan, David Grangier, Pierre AblinFirst submitted to…

July 13, 2025

Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QAby Eduard Tulchinskii, Laida Kushnareva,…

July 13, 2025

MenakBERT – Hebrew Diacriticizerby Ido Cohen, Jacob Gidron, Idan PintoFirst submitted to arxiv on: 3…

July 13, 2025

Mitigating Memorization In Language Modelsby Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Nathaniel Hudson, Caleb Geniesse,…

July 13, 2025

LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decompositionby Alireza Kheirandish, Duo Xu, Faramarz FekriFirst submitted…

July 13, 2025

Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspectiveby Zeyu Gan,…

July 13, 2025

Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Modelsby Philipp Mondorf, Sondre Wold, Barbara PlankFirst…

July 13, 2025

In-Context Transfer Learning: Demonstration Synthesis by Transferring Similar Tasksby Dingzirui Wang, Xuanliang Zhang, Qiguang Chen,…

July 13, 2025

Investigating the Synergistic Effects of Dropout and Residual Connections on Language Model Trainingby Qingyang Li,…