RLHF – Page 8 – GrooveSquid.com

July 13, 2025

Sharp Analysis for KL-Regularized Contextual Bandits and RLHFby Heyang Zhao, Chenlu Ye, Quanquan Gu, Tong…

July 13, 2025

SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHFby Atoosa Chegini, Hamid Kazemi, Iman Mirzadeh,…

July 13, 2025

Towards Reliable Alignment: Uncertainty-aware RLHFby Debangshu Banerjee, Aditya GopalanFirst submitted to arxiv on: 31 Oct…

July 13, 2025

RA-PbRL: Provably Efficient Risk-Aware Preference-Based Reinforcement Learningby Yujie Zhao, Jose Efraim Aguilar Escamill, Weyl Lu,…

July 13, 2025

COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferencesby Yixin Liu, Argyris Oikonomou, Weiqiang…

July 13, 2025

VPO: Leveraging the Number of Votes in Preference Optimizationby Jae Hyeon Cho, Minkyung Park, Byung-Jun…

July 13, 2025

Uncertainty-Penalized Direct Preference Optimizationby Sam Houliston, Alizée Pace, Alexander Immer, Gunnar RätschFirst submitted to arxiv…

July 13, 2025

Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferencesby Weijian LuoFirst submitted to…

July 13, 2025

Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Modelsby Michael Noukhovitch, Shengyi Huang,…

July 13, 2025

Optimal Design for Reward Modeling in RLHFby Antoine Scheid, Etienne Boursier, Alain Durmus, Michael I.…