Reinforcement learning from human feedback – Page 3

July 13, 2025

Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedbackby Jiayi Zhou, Jiaming Ji, Juntao…

July 13, 2025

Minor SFT loss for LLM fine-tune to increase performance and reduce model deviationby Shiming Xie,…

July 13, 2025

A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Caseby Sonia…

July 13, 2025

Model Surgery: Modulating LLM’s Behavior Via Simple Parameter Editingby Huanqian Wang, Yang Yue, Rui Lu,…

July 13, 2025

Towards Comprehensive Preference Data Collection for Reward Modelingby Yulan Hu, Qingyang Li, Sheng Ouyang, Ge…

July 13, 2025

Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Modelsby Lulu Zhao, Weihao Zeng, Xiaofeng Shi, Hua…

July 13, 2025

Toward Optimal LLM Alignments Using Two-Player Gamesby Rui Zheng, Hongyi Guo, Zhihan Liu, Xiaoying Zhang,…

July 13, 2025

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMsby Rui Yang, Ruomeng Ding, Yong…

July 13, 2025

Creativity Has Left the Chat: The Price of Debiasing Language Modelsby Behnam MohammadiFirst submitted to…

July 13, 2025

Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHFby Yuan Sun, Navid Salami…