Reinforcement learning – Page 167

July 13, 2025

Spectral-Risk Safe Reinforcement Learning with Convergence Guaranteesby Dohyeong Kim, Taehyun Cho, Seungyub Han, Hojun Chung,…

July 13, 2025

Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learningby Tianle Zhang, Jiayi Guan, Lin Zhao, Yihang Li,…

July 13, 2025

Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policiesby Haanvid Lee, Tri Wahyu…

July 13, 2025

Policy Zooming: Adaptive Discretization-based Infinite-Horizon Average-Reward Reinforcement Learningby Avik Kar, Rahul SinghFirst submitted to arxiv…

July 13, 2025

Federated Q-Learning with Reference-Advantage Decomposition: Almost Optimal Regret and Logarithmic Communication Costby Zhong Zheng, Haochen…

July 13, 2025

DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regimeby…

July 13, 2025

Efficient Preference-based Reinforcement Learning via Aligned Experience Estimationby Fengshuo Bai, Rui Zhao, Hongming Zhang, Sijia…

July 13, 2025

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RLby Yu Luo, Tianying Ji,…

July 13, 2025

Learning diverse attacks on large language models for robust red-teaming and safety tuningby Seanie Lee,…

July 13, 2025

Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexaminationby Zhiyao Luo, Yangchen Pan, Peter Watkinson,…