RLHF – Page 15 – GrooveSquid.com

July 13, 2025

Online Bandit Learning with Offline Preference Databy Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Zheng WenFirst…

July 13, 2025

It Takes Two: On the Seamlessness between Reward and Policy Model in RLHFby Taiming Lu,…

July 13, 2025

OPTune: Efficient Online Preference Tuningby Lichang Chen, Jiuhai Chen, Chenxi Liu, John Kirchenbauer, Davit Soselia,…

July 13, 2025

Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysisby Qining Zhang,…

July 13, 2025

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithmsby Rafael Rafailov, Yaswanth Chittepu, Ryan…

July 13, 2025

Adaptive Preference Scaling for Reinforcement Learning with Human Feedbackby Ilgee Hong, Zichong Li, Alexander Bukharin,…

July 13, 2025

Aligning Large Language Models via Fine-grained Supervisionby Dehong Xu, Liang Qiu, Minseok Kim, Faisal Ladhak,…

July 13, 2025

Self-Improving Robust Preference Optimizationby Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi AzarFirst…

July 13, 2025

Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHFby Tengyang Xie, Dylan J. Foster, Akshay…

July 13, 2025

Group Robust Preference Optimization in Reward-free RLHFby Shyam Sundhar Ramesh, Yifan Hu, Iason Chaimalas, Viraj…