Reinforcement learning – Page 107

July 13, 2025

Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learningby Shreyas S RFirst submitted…

July 13, 2025

Simplex-enabled Safe Continual Learning Machineby Hongpeng Cao, Yanbing Mao, Yihao Cai, Lui Sha, Marco CaccamoFirst…

July 13, 2025

State-Novelty Guided Action Persistence in Deep Reinforcement Learningby Jianshu Hu, Paul Weng, Yutong BanFirst submitted…

July 13, 2025

BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shapingby Aly Lidayan, Michael…

July 13, 2025

Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churnby Hongyao…

July 13, 2025

Reward-Directed Score-Based Diffusion Models via q-Learningby Xuefeng Gao, Jiale Zha, Xun Yu ZhouFirst submitted to…

July 13, 2025

Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functionsby Zakaria MhammediFirst submitted…

July 13, 2025

Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradientsby Luca Della LiberaFirst submitted to arxiv…

July 13, 2025

LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offsby Yongxin Deng, Xihe…

July 13, 2025

Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimizationby Minh Vu, Konstantinos SlavakisFirst submitted to arxiv…