RLHF – Page 6 – GrooveSquid.com

July 13, 2025

DeAL: Decoding-time Alignment for Large Language Modelsby James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an…

July 13, 2025

Direct Language Model Alignment from Online AI Feedbackby Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi…

July 13, 2025

Investigating Bias Representations in Llama 2 Chat via Activation Steeringby Dawn Lu, Nina RimskyFirst submitted…

July 13, 2025

Transforming and Combining Rewards for Aligning Large Language Modelsby Zihao Wang, Chirag Nagpal, Jonathan Berant,…

July 13, 2025

The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contextsby Lingfeng Shen, Weiting Tan,…

July 13, 2025

Reinforcement learning for question answering in programming domain using public community scoring as a human…

July 13, 2025

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedbackby Seong Jin Lee, Will Wei Sun, Yufeng…

July 13, 2025

FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHFby Flint Xiaofeng Fan, Cheston Tan,…

July 13, 2025

MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samplesby Shuo Xie, Fangzhi Zhu,…

July 13, 2025

Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Modelby Yuzhong Hong, Hanshan…