Reinforcement learning from human feedback – Page 10

July 13, 2025

Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Modelsby Wenxuan Zhang, Philip H.S. Torr, Mohamed Elhoseiny,…

July 13, 2025

SEAL: Systematic Error Analysis for Value ALignmentby Manon Revel, Matteo Cargnelutti, Tyna Eloundou, Greg LeppertFirst…

July 13, 2025

Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learningby Sriyash Poddar, Yanming Wan, Hamish…

July 13, 2025

A Framework for Fine-Tuning LLMs using Heterogeneous Feedbackby Ryan Aponte, Ryan A. Rossi, Shunan Guo,…

July 13, 2025

Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Driftby Seongho Son, William Bankes,…

July 13, 2025

Exploring and Addressing Reward Confusion in Offline Preference Learningby Xin Chen, Sam Toyer, Florian ShkurtiFirst…

July 13, 2025

Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecificationby Thomas Kwa,…

July 13, 2025

BOND: Aligning LLMs with Best-of-N Distillationby Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret,…

July 13, 2025

Data-Centric Human Preference Optimization with Rationalesby Hoang Anh Just, Ming Jin, Anit Sahu, Huy Phan,…

July 13, 2025

Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimizationby Audrey Huang,…