Reinforcement learning – Page 221

July 13, 2025

ED-Copilot: Reduce Emergency Department Wait Time with Language Model Diagnostic Assistanceby Liwen Sun, Abhineet Agarwal,…

July 13, 2025

Analyzing Operator States and the Impact of AI-Enhanced Decision Support in Control Rooms: A Human-in-the-Loop…

July 13, 2025

Discovering Behavioral Modes in Deep Reinforcement Learning Policies Using Trajectory Clustering in Latent Spaceby Sindre…

July 13, 2025

Align Your Intents: Offline Imitation Learning via Optimal Transportby Maksim Bobrin, Nazar Buzun, Dmitrii Krylov,…

July 13, 2025

Skill or Luck? Return Decomposition via Advantage Functionsby Hsiao-Ru Pan, Bernhard SchölkopfFirst submitted to arxiv…

July 13, 2025

Uniform Last-Iterate Guarantee for Bandits and Reinforcement Learningby Junyan Liu, Yunfan Li, Ruosong Wang, Lin…

July 13, 2025

Offline Multi-task Transfer RL with Representational Penalizationby Avinandan Bose, Simon Shaolei Du, Maryam FazelFirst submitted…

July 13, 2025

Reflect-RL: Two-Player Online RL Fine-Tuning for LMsby Runlong Zhou, Simon S. Du, Beibin LiFirst submitted…

July 13, 2025

Beyond Worst-case Attacks: Robust RL with Adaptive Defense via Non-dominated Policiesby Xiangyu Liu, Chenghao Deng,…

July 13, 2025

In value-based deep reinforcement learning, a pruned network is a good networkby Johan Obando-Ceron, Aaron…