RLHF – Page 10 – GrooveSquid.com

July 13, 2025

Boosting Deductive Reasoning with Step Signals In RLHFby Jialian Li, Yipin Zhang, Wei Shen, Yuzi…

July 13, 2025

SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Marginsby Jongwoo Ko, Saket…

July 13, 2025

Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Predictionby Jarrid Rector-Brooks, Mohsin Hasan, Zhangzhi…

July 13, 2025

Accelerated Preference Optimization for Large Language Model Alignmentby Jiafan He, Huizhuo Yuan, Quanquan GuFirst submitted…

July 13, 2025

Reward Learning From Preference With Tiesby Jinsong Liu, Dongdong Ge, Ruihao ZhuFirst submitted to arxiv…

July 13, 2025

SePPO: Semi-Policy Preference Optimization for Diffusion Alignmentby Daoan Zhang, Guangchen Lan, Dong-Jun Han, Wenlin Yao,…

July 13, 2025

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignmentby Yifan Zhang, Ge Zhang,…

July 13, 2025

Evaluating Robustness of Reward Models for Mathematical Reasoningby Sunghwan Kim, Dongjin Kang, Taeyoon Kwon, Hyungjoo…

July 13, 2025

HelpSteer2-Preference: Complementing Ratings with Preferencesby Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen,…

July 13, 2025

The Perfect Blend: Redefining RLHF with Mixture of Judgesby Tengyu Xu, Eryk Helenowski, Karthik Abinav…