Large language model – Page 81

July 13, 2025

Counterfactual Token Generation in Large Language Modelsby Ivi Chatzi, Nina Corvelo Benz, Eleni Straitouri, Stratis…

July 13, 2025

Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clusteringby…

July 13, 2025

Eagle: Efficient Training-Free Router for Multi-LLM Inferenceby Zesen Zhao, Shuowei Jin, Z. Morley MaoFirst submitted…

July 13, 2025

Archon: An Architecture Search Framework for Inference-Time Techniquesby Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan,…

July 13, 2025

Block-Attention for Efficient RAGby East Sun, Yan Wang, Lan TianFirst submitted to arxiv on: 14…

July 13, 2025

Unlocking Memorization in Large Language Models with Dynamic Soft Promptingby Zhepeng Wang, Runxue Bao, Yawen…

July 13, 2025

You can remove GPT2’s LayerNorm by fine-tuningby Stefan HeimersheimFirst submitted to arxiv on: 6 Sep…

July 13, 2025

Exploring Scaling Laws for Local SGD in Large Language Model Trainingby Qiaozhi He, Xiaomin Zhuang,…

July 13, 2025

Democratizing MLLMs in Healthcare: TinyLLaVA-Med for Efficient Healthcare Diagnostics in Resource-Constrained Settingsby Aya El Mir,…

July 13, 2025

LOLA – An Open-Source Massively Multilingual Large Language Modelby Nikit Srivastava, Denis Kuchelev, Tatiana Moteu…