Reinforcement learning – Page 17

July 13, 2025

QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learningby Yilun Kong, Hangyu Mao, Qi Zhao,…

July 13, 2025

Hologram Reasoning for Solving Algebra Problems with Geometry Diagramsby Litian Huang, Xinguo Yu, Feng Xiong,…

July 13, 2025

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Searchby Jonathan Light, Min Cai, Weiqin…

July 13, 2025

MalLight: Influence-Aware Coordinated Traffic Signal Control for Traffic Signal Malfunctionsby Qinchen Yang, Zejun Xie, Hua…

July 13, 2025

Reset-free Reinforcement Learning with World Modelsby Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat,…

July 13, 2025

Minor DPO reject penalty to increase training robustnessby Shiming Xie, Hong Chen, Fred Yu, Zeye…

July 13, 2025

Demystifying Reinforcement Learning in Production Scheduling via Explainable AIby Daniel Fischer, Hannah M. Hüsener, Felix…

July 13, 2025

REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learningby Rameez Qureshi, Naïm Es-Sebbani, Luis Galárraga, Yvette…

July 13, 2025

SynTraC: A Synthetic Dataset for Traffic Signal Control from Traffic Monitoring Camerasby Tiejin Chen, Prithvi…

July 13, 2025

Multi-Agent Reinforcement Learning for Autonomous Driving: A Surveyby Ruiqi Zhang, Jing Hou, Florian Walter, Shangding…