Reinforcement learning – Page 8

July 13, 2025

Multi-agent cooperation through learning-aware policy gradientsby Alexander Meulemans, Seijin Kobayashi, Johannes von Oswald, Nino Scherrer,…

July 13, 2025

Cross-lingual Transfer of Reward Models in Multilingual Alignmentby Jiwoo Hong, Noah Lee, Rodrigo Martínez-Castaño, César…

July 13, 2025

Process Supervision-Guided Policy Optimization for Code Generationby Ning Dai, Zheng Wu, Renjie Zheng, Ziyun Wei,…

July 13, 2025

Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Modelsby Muhan Lin, Shuyang Shi, Yue…

July 13, 2025

Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learningby Haining Wang, Jason Clark,…

July 13, 2025

Reinforcement learning on structure-conditioned categorical diffusion for protein inverse foldingby Yasha Ektefaie, Olivia Viessmann, Siddharth…

July 13, 2025

Improve Vision Language Model Chain-of-thought Reasoningby Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing…

July 13, 2025

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasksby Yue Deng, Weiyu Ma, Yuxin Fan, Ruyi…

July 13, 2025

Heterogeneous Graph Reinforcement Learning for Dependency-aware Multi-task Allocation in Spatial Crowdsourcingby Yong Zhao, Zhengqiu Zhu,…

July 13, 2025

Patrol Security Game: Defending Against Adversary with Freedom in Attack Timing, Location, and Durationby Hao-Tsung…