Reinforcement learning from human feedback – Page 7

July 13, 2025

RA-PbRL: Provably Efficient Risk-Aware Preference-Based Reinforcement Learningby Yujie Zhao, Jose Efraim Aguilar Escamill, Weyl Lu,…

July 13, 2025

COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferencesby Yixin Liu, Argyris Oikonomou, Weiqiang…

July 13, 2025

VPO: Leveraging the Number of Votes in Preference Optimizationby Jae Hyeon Cho, Minkyung Park, Byung-Jun…

July 13, 2025

Uncertainty-Penalized Direct Preference Optimizationby Sam Houliston, Alizée Pace, Alexander Immer, Gunnar RätschFirst submitted to arxiv…

July 13, 2025

Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewardsby Alexander G. Padula, Dennis…

July 13, 2025

On The Global Convergence Of Online RLHF With Neural Parametrizationby Mudit Gaur, Amrit Singh Bedi,…

July 13, 2025

How to Evaluate Reward Models for RLHFby Evan Frick, Tianle Li, Connor Chen, Wei-Lin Chiang,…

July 13, 2025

Personalized Adaptation via In-Context Preference Learningby Allison Lau, Younwoo Choi, Vahid Balazadeh, Keertana Chidambaram, Vasilis…

July 13, 2025

A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglementby Hui Yuan, Yifan Zeng, Yue…

July 13, 2025

Generative Reward Modelsby Dakota Mahan, Duy Van Phung, Rafael Rafailov, Chase Blagden, Nathan Lile, Louis…