Reinforcement learning – Page 222

July 13, 2025

Induced Model Matching: How Restricted Models Can Help Larger Onesby Usama Muneeb, Mesrob I. OhannessianFirst…

July 13, 2025

The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learningby Anya Sims, Cong Lu, Jakob Foerster, Yee…

July 13, 2025

Refining Minimax Regret for Unsupervised Environment Designby Michael Beukman, Samuel Coward, Michael Matthews, Mattie Fellows,…

July 13, 2025

A Critical Evaluation of AI Feedback for Aligning Large Language Modelsby Archit Sharma, Sedrick Keh,…

July 13, 2025

Revisiting Data Augmentation in Deep Reinforcement Learningby Jianshu Hu, Yunpeng Jiang, Paul WengFirst submitted to…

July 13, 2025

Non-orthogonal Age-Optimal Information Dissemination in Vehicular Networks: A Meta Multi-Objective Reinforcement Learning Approachby A. A.…

July 13, 2025

When Do Off-Policy and On-Policy Policy Gradient Methods Align?by Davide Mambelli, Stephan Bongers, Onno Zoeter,…

July 13, 2025

All Language Models Large and Smallby Zhixun Chen, Yali Du, David MguniFirst submitted to arxiv…

July 13, 2025

Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Samplingby Arman Adibi, Nicolo Dal Fabbro,…

July 13, 2025

Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret Minimizationby Luca D'Amico-Wong, Hugh Zhang, Marc…