Reinforcement learning from human feedback – Page 4

July 13, 2025

Decoupled Alignment for Robust Plug-and-Play Adaptationby Haozheng Luo, Jiahao Yu, Wenxin Zhang, Jialong Li, Jerry…

July 13, 2025

InstructionCP: A fast approach to transfer Large Language Models into target languageby Kuang-Ming Chen, Hung-yi…

July 13, 2025

Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT…

July 13, 2025

Exploring the LLM Journey from Cognition to Expression with Linear Representationsby Yuzi Yan, Jialian Li,…

July 13, 2025

360Zhinao Technical Reportby 360Zhinao TeamFirst submitted to arxiv on: 22 May 2024CategoriesMain: Computation and Language…

July 13, 2025

Leveraging Human Revisions for Improving Text-to-Layout Modelsby Amber Xie, Chin-Yi Cheng, Forrest Huang, Yang LiFirst…

July 13, 2025

More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthinessby Aaron J. Li,…

July 13, 2025

MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answeringby Janak Kapuriya, Chhavi Kirtani, Apoorv Singh, Jay…

July 13, 2025

Mapping Social Choice Theory to RLHFby Jessica Dai, Eve FleisigFirst submitted to arxiv on: 19…

July 13, 2025

InternLM2 Technical Reportby Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen,…