Reinforcement learning – Page 219

July 13, 2025

Feedback Efficient Online Fine-Tuning of Diffusion Modelsby Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali,…

July 13, 2025

How Can LLM Guide RL? A Value-Based Approachby Shenao Zhang, Sirui Zheng, Shuqi Ke, Zhihan…

July 13, 2025

Graph Diffusion Policy Optimizationby Yijing Liu, Chao Du, Tianyu Pang, Chongxuan Li, Min Lin, Wei…

July 13, 2025

Achieving Instance-dependent Sample Complexity for Constrained Markov Decision Processby Jiashuo Jiang, Yinyu YeFirst submitted to…

July 13, 2025

How Likely Do LLMs with CoT Mimic Human Reasoning?by Guangsheng Bao, Hongbo Zhang, Cunxiang Wang,…

July 13, 2025

Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A Reinforcement Learning Approachby Alaa Selim, Yanzhu Ye, Junbo…

July 13, 2025

DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learningby Anthony Liang, Guy Tennenholtz, Chih-wei Hsu,…

July 13, 2025

Reward Design for Justifiable Sequential Decision-Makingby Aleksa Sukovic, Goran RadanovicFirst submitted to arxiv on: 24…

July 13, 2025

Fair Resource Allocation in Multi-Task Learningby Hao Ban, Kaiyi JiFirst submitted to arxiv on: 23…

July 13, 2025

Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applicationsby Zihan Zhou, Jonathan Booher, Khashayar…