Reinforcement learning from human feedback – Page 16

July 13, 2025

Active Preference Optimization for Sample Efficient RLHFby Nirjhar Das, Souradip Chakraborty, Aldo Pacchiano, Sayak Ray…

July 13, 2025

Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilizationby Yihan Du, Anna Winnicki,…

July 13, 2025

Reward Generalization in RLHF: A Topological Perspectiveby Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan,…

July 13, 2025

RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language…

July 13, 2025

InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modelingby Yuchun Miao, Sen Zhang, Liang…

July 13, 2025

Reinforcement Learning from Human Feedback with Active Queriesby Kaixuan Ji, Jiafan He, Quanquan GuFirst submitted…

July 13, 2025

MaxMin-RLHF: Alignment with Diverse Human Preferencesby Souradip Chakraborty, Jiahao Qiu, Hui Yuan, Alec Koppel, Furong…

July 13, 2025

Online Iterative Reinforcement Learning from Human Feedback with General Preference Modelby Chenlu Ye, Wei Xiong,…

July 13, 2025

ODIN: Disentangled Reward Mitigates Hacking in RLHFby Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen,…

July 13, 2025

How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?by Ryan Liu, Theodore R.…