Reinforcement learning from human feedback – Page 15

July 13, 2025

Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimationby Xiaoying Zhang, Jean-Francois Ton,…

July 13, 2025

Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxyby Yu Zhu, Chuxiong Sun,…

July 13, 2025

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hackingby Cassidy Laidlaw, Shivam Singhal,…

July 13, 2025

Enhancing LLM Safety via Constrained Direct Preference Optimizationby Zixuan Liu, Xiaolin Sun, Zizhan ZhengFirst submitted…

July 13, 2025

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferencesby Andi…

July 13, 2025

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewardsby Haoxiang…

July 13, 2025

CogBench: a large language model walks into a psychology labby Julian Coda-Forno, Marcel Binz, Jane…

July 13, 2025

When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedbackby…

July 13, 2025

Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarizationby…

July 13, 2025

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMsby Arash…