Reinforcement learning – Page 103

July 13, 2025

Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RLby Eduardo Pignatelli, Johan Ferret,…

July 13, 2025

The Central Role of the Loss Function in Reinforcement Learningby Kaiwen Wang, Nathan Kallus, Wen…

July 13, 2025

Putting Data at the Centre of Offline Multi-Agent Reinforcement Learningby Claude Formanek, Louise Beyers, Callum…

July 13, 2025

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvementby An Yang, Beichen Zhang, Binyuan Hui,…

July 13, 2025

Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Featuresby Jiuqi Wang, Shangtong ZhangFirst…

July 13, 2025

Optimizing Job Shop Scheduling in the Furniture Industry: A Reinforcement Learning Approach Considering Machine Setup,…

July 13, 2025

Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Surveyby Genta Indra…

July 13, 2025

HARP: Human-Assisted Regrouping with Permutation Invariant Critic for Multi-Agent Reinforcement Learningby Huawen Hu, Enze Shi,…

July 13, 2025

A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compilerby Nazim Bendib, Iheb…

July 13, 2025

Reinforcement Learning with Quasi-Hyperbolic Discountingby S.R. Eshwar, Mayank Motwani, Nibedita Roy, Gugan ThoppeFirst submitted to…