RLHF – Page 18 – GrooveSquid.com

July 13, 2025

Fairness in Reinforcement Learning: A Surveyby Anka Reuel, Devin MaFirst submitted to arxiv on: 11…

July 13, 2025

NeMo-Aligner: Scalable Toolkit for Efficient Model Alignmentby Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng,…

July 13, 2025

MetaRM: Shifted Distributions Alignment via Meta-Learningby Shihan Dou, Yan Liu, Enyu Zhou, Tianlong Li, Haoxiang…

July 13, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHFby Han Zhong, Zikang Shan, Guhao Feng, Wei…

July 13, 2025

Weak-to-Strong Extrapolation Expedites Alignmentby Chujie Zheng, Ziqi Wang, Heng Ji, Minlie Huang, Nanyun PengFirst submitted…

July 13, 2025

Filtered Direct Preference Optimizationby Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito AriuFirst submitted…

July 13, 2025

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Databy Chandeepa Dissanayake, Lahiru…

July 13, 2025

Dataset Reset Policy Optimization for RLHFby Jonathan D. Chang, Wenhao Zhan, Owen Oertell, Kianté Brantley,…

July 13, 2025

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMsby Shreyas Chaudhari,…

July 13, 2025

Investigating Regularization of Self-Play Language Modelsby Reda Alami, Abdalgader Abubaker, Mastane Achab, Mohamed El Amine…