Reinforcement learning – Page 247

July 13, 2025

Striking a Balance in Fairness for Dynamic Systems Through Reinforcement Learningby Yaowei Hu, Jacob Lear,…

July 13, 2025

Personalized Reinforcement Learning with a Budget of Policiesby Dmitry Ivanov, Omer Ben-PoratFirst submitted to arxiv…

July 13, 2025

Secrets of RLHF in Large Language Models Part II: Reward Modelingby Binghai Wang, Rui Zheng,…

July 13, 2025

An experimental evaluation of Deep Reinforcement Learning algorithms for HVAC controlby Antonio Manjavacas, Alejandro Campoy-Nieves,…

July 13, 2025

Bounds on the price of feedback for mistake-bounded online learningby Jesse Geneson, Linus TangFirst submitted…

July 13, 2025

Interpretable Concept Bottlenecks to Align Reinforcement Learning Agentsby Quentin Delfosse, Sebastian Sztwiertnia, Mark Rothermel, Wolfgang…

July 13, 2025

Optimistic Model Rollouts for Pessimistic Offline Policy Optimizationby Yuanzhao Zhai, Yiying Li, Zijian Gao, Xudong…

July 13, 2025

Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent Systemsby Qin YangFirst submitted to arxiv on: 10 Jan…

July 13, 2025

The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewardsby Xi Chen, Zhihui Zhu,…

July 13, 2025

ReACT: Reinforcement Learning for Controller Parametrization using B-Spline Geometriesby Thomas Rudolf, Daniel Flögel, Tobias Schürmann,…