Reinforcement learning from human feedback – Page 12

July 13, 2025

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithmsby Rafael Rafailov, Yaswanth Chittepu, Ryan…

July 13, 2025

Adaptive Preference Scaling for Reinforcement Learning with Human Feedbackby Ilgee Hong, Zichong Li, Alexander Bukharin,…

July 13, 2025

Self-Improving Robust Preference Optimizationby Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi AzarFirst…

July 13, 2025

Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHFby Tengyang Xie, Dylan J. Foster, Akshay…

July 13, 2025

Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Headsby…

July 13, 2025

One-Shot Safety Alignment for Large Language Models via Optimal Dualizationby Xinmeng Huang, Shuo Li, Edgar…

July 13, 2025

Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHFby Shicong Cen, Jincheng Mei,…

July 13, 2025

Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scalesby Ju-Seung Byun,…

July 13, 2025

On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching…

July 13, 2025

Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizerby Zhihan Liu,…