Fine tuning – Page 244 – GrooveSquid.com

July 13, 2025

Summary of One Step Learning, One Step Review, by Xiaolong Huang et al.

One Step Learning, One Step Reviewby Xiaolong Huang, Qiankun Li, Xueran Li, Xuesong GaoFirst submitted…

July 13, 2025

Summary of Orchmoe: Efficient Multi-adapter Learning with Task-skill Synergy, by Haowen Wang et al.

OrchMoE: Efficient Multi-Adapter Learning with Task-Skill Synergyby Haowen Wang, Tao Sun, Kaixiang Ji, Jian Wang,…

July 13, 2025

Summary of Autoft: Learning An Objective For Robust Fine-tuning, by Caroline Choi et al.

AutoFT: Learning an Objective for Robust Fine-Tuningby Caroline Choi, Yoonho Lee, Annie Chen, Allan Zhou,…

July 13, 2025

Summary of A Fast, Performant, Secure Distributed Training Framework For Large Language Model, by Wei Huang et al.

A Fast, Performant, Secure Distributed Training Framework For Large Language Modelby Wei Huang, Yinggui Wang,…

July 13, 2025

Summary of Risk-aware Accelerated Wireless Federated Learning with Heterogeneous Clients, by Mohamed Ads et al.

Risk-Aware Accelerated Wireless Federated Learning with Heterogeneous Clientsby Mohamed Ads, Hesham ElSawy, Hossam S. HassaneinFirst…

July 13, 2025

Summary of Mada: Meta-adaptive Optimizers Through Hyper-gradient Descent, by Kaan Ozkara et al.

MADA: Meta-Adaptive Optimizers through hyper-gradient Descentby Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham…

July 13, 2025

Summary of Rag Vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture, by Angels Balaguer et al.

RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agricultureby Angels Balaguer, Vinamra Benara,…

July 13, 2025

Summary of Contrastive Perplexity For Controlled Generation: An Application in Detoxifying Large Language Models, by Tassilo Klein et al.

Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Modelsby Tassilo Klein, Moin…

July 13, 2025

Summary of Activations and Gradients Compression For Model-parallel Training, by Mikhail Rudakov et al.

Activations and Gradients Compression for Model-Parallel Trainingby Mikhail Rudakov, Aleksandr Beznosikov, Yaroslav Kholodov, Alexander GasnikovFirst…

July 13, 2025

Summary of Pde Generalization Of In-context Operator Networks: a Study on 1d Scalar Nonlinear Conservation Laws, by Liu Yang et al.

PDE Generalization of In-Context Operator Networks: A Study on 1D Scalar Nonlinear Conservation Lawsby Liu…