Reinforcement learning from human feedback – Page 9

July 13, 2025

Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inferenceby Qining Zhang, Lei…

July 13, 2025

Reward-Robust RLHF in LLMsby Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao…

July 13, 2025

RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusionby Yinmin Zhong,…

July 13, 2025

From Lists to Emojis: How Format Bias Affects Model Alignmentby Xuanchang Zhang, Wei Xiong, Lichang…

July 13, 2025

Quantile Regression for Distributional Reward Models in RLHFby Nicolai DorkaFirst submitted to arxiv on: 16…

July 13, 2025

Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparisonby Judy Hanwen Shen, Archit Sharma, Jun…

July 13, 2025

Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learningby Hanyang Zhao,…

July 13, 2025

Policy Filtration in RLHF to Fine-Tune LLM for Code Generationby Wei Shen, Chuheng ZhangFirst submitted…

July 13, 2025

Length Desensitization in Direct Preference Optimizationby Wei Liu, Yang Bai, Chengcheng Han, Rongxiang Weng, Jun…

July 13, 2025

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimizationby…