Reinforcement learning – Page 227

July 13, 2025

Active Preference Learning for Large Language Modelsby William Muldrew, Peter Hayes, Mingtian Zhang, David BarberFirst…

July 13, 2025

MAIDCRL: Semi-centralized Multi-Agent Influence Dense-CNN Reinforcement Learningby Ayesha Siddika Nipu, Siming Liu, Anthony HarrisFirst submitted…

July 13, 2025

Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial Statesby Noam…

July 13, 2025

SPO: Sequential Monte Carlo Policy Optimisationby Matthew V Macfarlane, Edan Toledo, Donal Byrne, Paul Duckworth,…

July 13, 2025

Leveraging Digital Cousins for Ensemble Q-Learning in Large-Scale Wireless Networksby Talha Bozkus, Urbashi MitraFirst submitted…

July 13, 2025

Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Modelby Mark Rowland, Li Kevin Wenliang, Rémi Munos,…

July 13, 2025

Auxiliary Reward Generation with Transition Distance Representation Learningby Siyuan Li, Shijie Han, Yingnan Zhao, By…

July 13, 2025

Score-based Diffusion Models via Stochastic Differential Equations – a Technical Tutorialby Wenpin Tang, Hanyang ZhaoFirst…

July 13, 2025

Online Iterative Reinforcement Learning from Human Feedback with General Preference Modelby Chenlu Ye, Wei Xiong,…

July 13, 2025

ODIN: Disentangled Reward Mitigates Hacking in RLHFby Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen,…