RLHF – Page 16 – GrooveSquid.com

July 13, 2025

Summary of Would I Lie to You? Inference Time Alignment Of Language Models Using Direct Preference Heads, by Avelina Asada Hadji-kyriacou and Ognjen Arandjelovic

Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Headsby…

July 13, 2025

Summary of One-shot Safety Alignment For Large Language Models Via Optimal Dualization, by Xinmeng Huang et al.

One-Shot Safety Alignment for Large Language Models via Optimal Dualizationby Xinmeng Huang, Shuo Li, Edgar…

July 13, 2025

Summary of Dr-llava: Visual Instruction Tuning with Symbolic Clinical Grounding, by Shenghuan Sun et al.

Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Groundingby Shenghuan Sun, Alexander Schubert, Gregory M. Goldgof,…

July 13, 2025

Summary of Value-incentivized Preference Optimization: a Unified Approach to Online and Offline Rlhf, by Shicong Cen et al.

Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHFby Shicong Cen, Jincheng Mei,…

July 13, 2025

Summary of Online Merging Optimizers For Boosting Rewards and Mitigating Tax in Alignment, by Keming Lu et al.

Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignmentby Keming Lu, Bowen Yu,…

July 13, 2025

Summary of Symmetric Reinforcement Learning Loss For Robust Learning on Diverse Tasks and Model Scales, by Ju-seung Byun et al.

Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scalesby Ju-Seung Byun,…

July 13, 2025

Summary of Rlsf: Reinforcement Learning Via Symbolic Feedback, by Piyush Jha et al.

RLSF: Reinforcement Learning via Symbolic Feedbackby Piyush Jha, Prithwish Jana, Pranavkrishna Suresh, Arnav Arora, Vijay…

July 13, 2025

Summary of On the Algorithmic Bias Of Aligning Large Language Models with Rlhf: Preference Collapse and Matching Regularization, by Jiancong Xiao et al.

On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching…

July 13, 2025

Summary of Provably Mitigating Overoptimization in Rlhf: Your Sft Loss Is Implicitly An Adversarial Regularizer, by Zhihan Liu et al.

Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizerby Zhihan Liu,…

July 13, 2025

Summary of Direct Preference Optimization with Unobserved Preference Heterogeneity, by Keertana Chidambaram et al.

Direct Preference Optimization With Unobserved Preference Heterogeneityby Keertana Chidambaram, Karthik Vinay Seetharaman, Vasilis SyrgkanisFirst submitted…