Reinforcement learning – Page 111

July 13, 2025

A Tighter Convergence Proof of Reverse Experience Replayby Nan Jiang, Jinzhao Li, Yexiang XueFirst submitted…

July 13, 2025

A GREAT Architecture for Edge-Based Graph Problems Like TSPby Attila Lischka, Jiaming Wu, Morteza Haghir…

July 13, 2025

Reinforcement Learning without Human Feedback for Last Mile Fine-Tuning of Large Language Modelsby Alec SolwayFirst…

July 13, 2025

On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processesby Yi Wan, Huizhen Yu,…

July 13, 2025

An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommendersby Shuang Feng, Grace FengFirst…

July 13, 2025

RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Modelsby Pritthijit Nath, Henry Moss, Emily…

July 13, 2025

Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learningby Felix Pfeiffer, Shahram EivaziFirst…

July 13, 2025

MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learningby Yifu Yuan, Zhenrui…

July 13, 2025

Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learningby Minjong Yoo, Sangwoo Cho, Honguk WooFirst…

July 13, 2025

UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Functionby Zhichao…