RLHF – Page 5 – GrooveSquid.com

July 13, 2025

Mapping Social Choice Theory to RLHFby Jessica Dai, Eve FleisigFirst submitted to arxiv on: 19…

July 13, 2025

Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinationsby Christian Tomani, Kamalika Chaudhuri, Ivan Evtimov,…

July 13, 2025

Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignmentby Yuu Jinnai, Tetsuro…

July 13, 2025

Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMsby Shu Yang, Jiayuan…

July 13, 2025

InternLM2 Technical Reportby Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen,…

July 13, 2025

Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflectionby Kyungjae Lee,…

July 13, 2025

Fine-tuning vs Prompting, Can Language Models Understand Human Values?by Pingwei SunFirst submitted to arxiv on:…

July 13, 2025

Improving Reinforcement Learning from Human Feedback Using Contrastive Rewardsby Wei Shen, Xiaoying Zhang, Yuanshun Yao,…

July 13, 2025

Enhancing Image Caption Generation Using Reinforcement Learning with Human Feedbackby Adarsh N L, Arun P…

July 13, 2025

MedAide: Leveraging Large Language Models for On-Premise Medical Assistance on Edge Devicesby Abdul Basit, Khizar…