Reinforcement learning from human feedback – Page 17

July 13, 2025

A Theoretical Framework for Partially Observed Reward-States in RLHFby Chinmaya Kausik, Mirco Mutti, Aldo Pacchiano,…

July 13, 2025

BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedbackby Gaurav Pandey, Yatin Nandwani,…

July 13, 2025

Dense Reward for Free in Reinforcement Learning from Human Feedbackby Alex J. Chan, Hao Sun,…

July 13, 2025

Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensembleby Shun Zhang, Zhenfang Chen,…

July 13, 2025

Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHFby Banghua Zhu, Michael I. Jordan,…

July 13, 2025

Secrets of RLHF in Large Language Models Part II: Reward Modelingby Binghai Wang, Rui Zheng,…

July 13, 2025

A Minimaximalist Approach to Reinforcement Learning from Human Feedbackby Gokul Swamy, Christoph Dann, Rahul Kidambi,…

July 13, 2025

Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensemblesby Yuanzhao Zhai, Han Zhang,…

July 13, 2025

COPR: Continual Learning Human Preference through Optimal Policy Regularizationby Han Zhang, Lin Gui, Yuanzhao Zhai,…