RLHF – GrooveSquid.com

July 13, 2025

Cannot or Should Not? Automatic Analysis of Refusal Composition in IFT/RLHF Datasets and Refusal Behavior…

July 13, 2025

Online Learning from Strategic Human Feedback in LLM Fine-Tuningby Shugang Hao, Lingjie DuanFirst submitted to…

July 13, 2025

CareBot: A Pioneering Full-Process Open-Source Medical Language Modelby Lulu Zhao, Weihao Zeng, Xiaofeng Shi, Hua…

July 13, 2025

Linear Probe Penalties Reduce LLM Sycophancyby Henry Papadatos, Rachel FreedmanFirst submitted to arxiv on: 1…

July 13, 2025

R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedbackby Jiahui Li, Tai-wei Chang, Fengda…

July 13, 2025

Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignmentby Joshua T. S. HewsonFirst submitted…

July 13, 2025

Evolving Alignment via Asymmetric Self-Playby Ziyu Ye, Rishabh Agarwal, Tianqi Liu, Rishabh Joshi, Sarmishta Velury,…

July 13, 2025

Self-Evolved Reward Learning for LLMsby Chenghua Huang, Zhizhen Fan, Lu Wang, Fangkai Yang, Pu Zhao,…

July 13, 2025

Improving Small-Scale Large Language Models Function Calling for Reasoning Tasksby Graziano A. Manduzio, Federico A.…

July 13, 2025

Cross-lingual Transfer of Reward Models in Multilingual Alignmentby Jiwoo Hong, Noah Lee, Rodrigo Martínez-Castaño, César…