RLHF – Page 20 – GrooveSquid.com

July 13, 2025

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hackingby Cassidy Laidlaw, Shivam Singhal,…

July 13, 2025

Enhancing LLM Safety via Constrained Direct Preference Optimizationby Zixuan Liu, Xiaolin Sun, Zizhan ZhengFirst submitted…

July 13, 2025

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferencesby Andi…

July 13, 2025

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewardsby Haoxiang…

July 13, 2025

CogBench: a large language model walks into a psychology labby Julian Coda-Forno, Marcel Binz, Jane…

July 13, 2025

When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedbackby…

July 13, 2025

Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarizationby…

July 13, 2025

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMsby Arash…

July 13, 2025

Advancing Translation Preference Modeling with RLHF: A Step Towards Cost-Effective Solutionby Nuo Xu, Jun Zhao,…

July 13, 2025

Active Preference Optimization for Sample Efficient RLHFby Nirjhar Das, Souradip Chakraborty, Aldo Pacchiano, Sayak Ray…