RLHF – Page 12 – GrooveSquid.com

July 13, 2025

Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparisonby Judy Hanwen Shen, Archit Sharma, Jun…

July 13, 2025

Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learningby Hanyang Zhao,…

July 13, 2025

Policy Filtration in RLHF to Fine-Tune LLM for Code Generationby Wei Shen, Chuheng ZhangFirst submitted…

July 13, 2025

Semi-Supervised Reward Modeling via Iterative Self-Trainingby Yifei He, Haoxiang Wang, Ziyan Jiang, Alexandros Papangelis, Han…

July 13, 2025

AGR: Age Group fairness Reward for Bias Mitigation in LLMsby Shuirong Cao, Ruoxi Cheng, Zhiqiang…

July 13, 2025

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimizationby…

July 13, 2025

A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Modelsby Yi-Lin…

July 13, 2025

UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Functionby Zhichao…

July 13, 2025

SEAL: Systematic Error Analysis for Value ALignmentby Manon Revel, Matteo Cargnelutti, Tyna Eloundou, Greg LeppertFirst…

July 13, 2025

Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learningby Sriyash Poddar, Yanming Wan, Hamish…