Reinforcement learning from human feedback – Page 13

July 13, 2025

SimPO: Simple Preference Optimization with a Reference-Free Rewardby Yu Meng, Mengzhou Xia, Danqi ChenFirst submitted…

July 13, 2025

LIRE: listwise reward enhancement for preference alignmentby Mingye Zhu, Yi Liu, Lei Zhang, Junbo Guo,…

July 13, 2025

A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedbackby Kihyun…

July 13, 2025

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Frameworkby Jian Hu, Xibin Wu, Zilin Zhu, Xianyu,…

July 13, 2025

The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedbackby Ruitao Chen, Liwei…

July 13, 2025

Understanding the performance gap between online and offline alignment algorithmsby Yunhao Tang, Daniel Zhaohan Guo,…

July 13, 2025

RLHF Workflow: From Reward Modeling to Online RLHFby Hanze Dong, Wei Xiong, Bo Pang, Haoxiang…

July 13, 2025

Open Challenges and Opportunities in Federated Foundation Models Towards Biomedical Healthcareby Xingyu Li, Lu Peng,…

July 13, 2025

MetaRM: Shifted Distributions Alignment via Meta-Learningby Shihan Dou, Yan Liu, Enyu Zhou, Tianlong Li, Haoxiang…

July 13, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHFby Han Zhong, Zikang Shan, Guhao Feng, Wei…