Reinforcement learning – Page 229

July 13, 2025

Corruption Robust Offline Reinforcement Learning with Human Feedbackby Debmalya Mandal, Andi Nika, Parameswaran Kamalaruban, Adish…

July 13, 2025

Monitored Markov Decision Processesby Simone Parisi, Montaser Mohammedalamen, Alireza Kazemipour, Matthew E. Taylor, Michael BowlingFirst…

July 13, 2025

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHFby Han Shen, Zhuoran Yang, Tianyi ChenFirst…

July 13, 2025

Predictive representations: building blocks of intelligenceby Wilka Carvalho, Momchil S. Tomov, William de Cothi, Caswell…

July 13, 2025

Scaling Intelligent Agents in Combat Simulations for Wargamingby Scotty Black, Christian DarkenFirst submitted to arxiv…

July 13, 2025

Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcementby Muning Wen, Junwei Liao, Cheng Deng, Jun…

July 13, 2025

ACTER: Diverse and Actionable Counterfactual Sequences for Explaining and Diagnosing RL Policiesby Jasmina Gajcin, Ivana…

July 13, 2025

Deceptive Path Planning via Reinforcement Learning with Graph Neural Networksby Michael Y. Fatemi, Wesley A.…

July 13, 2025

High-Precision Geosteering via Reinforcement Learning and Particle Filtersby Ressi Bonti Muhammad, Apoorv Srivastava, Sergey Alyaev,…

July 13, 2025

Hierarchical Transformers are Efficient Meta-Reinforcement Learnersby Gresa Shala, André Biedenkapp, Josif GrabockaFirst submitted to arxiv…