Reinforcement learning from human feedback – Page 14

July 13, 2025

Filtered Direct Preference Optimizationby Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito AriuFirst submitted…

July 13, 2025

Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedbackby Vincent Conitzer, Rachel…

July 13, 2025

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMsby Shreyas Chaudhari,…

July 13, 2025

Investigating Regularization of Self-Play Language Modelsby Reda Alami, Abdalgader Abubaker, Mastane Achab, Mohamed El Amine…

July 13, 2025

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferencesby Corby Rosset, Ching-An Cheng,…

July 13, 2025

Fine-Tuning Language Models with Reward Learning on Policyby Hao Lang, Fei Huang, Yongbin LiFirst submitted…

July 13, 2025

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarizationby Shengyi…

July 13, 2025

Parameter Efficient Reinforcement Learning from Human Feedbackby Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin,…

July 13, 2025

HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedbackby Ang Li,…

July 13, 2025

ALaRM: Align Language Models via Hierarchical Rewards Modelingby Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing…