Reinforcement learning – Page 108

July 13, 2025

RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMsby Jiaxing Wu, Lin Ning,…

July 13, 2025

AGR: Age Group fairness Reward for Bias Mitigation in LLMsby Shuirong Cao, Ruoxi Cheng, Zhiqiang…

July 13, 2025

On the Convergence Rates of Federated Q-Learning across Heterogeneous Environmentsby Muxing Wang, Pengkun Yang, Lili…

July 13, 2025

Asynchronous Stochastic Approximation and Average-Reward Reinforcement Learningby Huizhen Yu, Yi Wan, Richard S. SuttonFirst submitted…

July 13, 2025

Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptronby Christian Schmid, James M. MurrayFirst…

July 13, 2025

CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learningby John Birkbeck, Adam Sobey, Federico Cerutti,…

July 13, 2025

ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Modelsby Qi Ju, Falin Hei, Zhemei Fang, Yunfeng LuoFirst…

July 13, 2025

An Introduction to Centralized Training for Decentralized Execution in Cooperative Multi-Agent Reinforcement Learningby Christopher AmatoFirst…

July 13, 2025

Discovering Cyclists’ Visual Preferences Through Shared Bike Trajectories and Street View Images Using Inverse Reinforcement…

July 13, 2025

Non-stationary and Sparsely-correlated Multi-output Gaussian Process with Spike-and-Slab Priorby Wang Xinming, Li Yongxiang, Yue Xiaowei,…