Reinforcement learning – Page 44

July 13, 2025

Offline Reinforcement Learning for LLM Multi-Step Reasoningby Huaijie Wang, Shibo Hao, Hanze Dong, Shenao Zhang,…

July 13, 2025

What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoningby Yiran Ma, Zui…

July 13, 2025

AIR: Unifying Individual and Collective Exploration in Cooperative Multi-Agent Reinforcement Learningby Guangchong Zhou, Zeren Zhang,…

July 13, 2025

Novelty-Guided Data Reuse for Efficient and Diversified Multi-Agent Reinforcement Learningby Yangkun Chen, Kai Yang, Jian…

July 13, 2025

Generalized Back-Stepping Experience Replay in Sparse-Reward Environmentsby Guwen Lyu, Masahiro SatoFirst submitted to arxiv on:…

July 13, 2025

SORREL: Suboptimal-Demonstration-Guided Reinforcement Learning for Learning to Branchby Shengyu Feng, Yiming YangFirst submitted to arxiv…

July 13, 2025

FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHFby Flint Xiaofeng Fan, Cheston Tan,…

July 13, 2025

PCA-Featured Transformer for Jamming Detection in 5G UAV Networksby Joseanne Viana, Hamed Farkhari, Pedro Sebastiao,…

July 13, 2025

Investigating Relational State Abstraction in Collaborative MARLby Sharlin Utke, Jeremie Houssineau, Giovanni MontanaFirst submitted to…

July 13, 2025

AdaCred: Adaptive Causal Decision Transformers with Feature Creditingby Hemant Kumawat, Saibal MukhopadhyayFirst submitted to arxiv…