Reinforcement learning from human feedback – Page 8

July 13, 2025

SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Marginsby Jongwoo Ko, Saket…

July 13, 2025

Accelerated Preference Optimization for Large Language Model Alignmentby Jiafan He, Huizhuo Yuan, Quanquan GuFirst submitted…

July 13, 2025

Reward Learning From Preference With Tiesby Jinsong Liu, Dongdong Ge, Ruihao ZhuFirst submitted to arxiv…

July 13, 2025

SePPO: Semi-Policy Preference Optimization for Diffusion Alignmentby Daoan Zhang, Guangchen Lan, Dong-Jun Han, Wenlin Yao,…

July 13, 2025

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignmentby Yifan Zhang, Ge Zhang,…

July 13, 2025

Evaluating Robustness of Reward Models for Mathematical Reasoningby Sunghwan Kim, Dongjin Kang, Taeyoon Kwon, Hyungjoo…

July 13, 2025

The Perfect Blend: Redefining RLHF with Mixture of Judgesby Tengyu Xu, Eryk Helenowski, Karthik Abinav…

July 13, 2025

Calibrating Language Models with Adaptive Temperature Scalingby Johnathan Xie, Annie S. Chen, Yoonho Lee, Eric…

July 13, 2025

HybridFlow: A Flexible and Efficient RLHF Frameworkby Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu,…

July 13, 2025

VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedbackby Guoxi Zhang, Jiuding DuanFirst submitted…