Reinforcement learning – Page 31

July 13, 2025

Exploring the landscape of large language models: Foundations, techniques, and challengesby Milad Moradi, Ke Yan,…

July 13, 2025

X-Light: Cross-City Traffic Signal Control Using Transformer on Transformer as Meta Multi-Agent Reinforcement Learnerby Haoyuan…

July 13, 2025

Learn to Tour: Operator Design For Solution Feasibility Mapping in Pickup-and-delivery Traveling Salesman Problemby Bowen…

July 13, 2025

Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinationsby Christian Tomani, Kamalika Chaudhuri, Ivan Evtimov,…

July 13, 2025

Simplex Decomposition for Portfolio Allocation Constraints in Reinforcement Learningby David Winkel, Niklas Strauß, Matthias Schubert,…

July 13, 2025

N-Agent Ad Hoc Teamworkby Caroline Wang, Arrasy Rahman, Ishan Durugkar, Elad Liebman, Peter StoneFirst submitted…

July 13, 2025

Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RLby Fangwei Zhong, Kui Wu,…

July 13, 2025

Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMsby Ruoxi Cheng, Haoxuan…

July 13, 2025

Improving Language Model Reasoning with Self-motivated Learningby Yunlong Feng, Yang Xu, Libo Qin, Yasheng Wang,…

July 13, 2025

Towards Understanding the Influence of Reward Margin on Preference Model Performanceby Bowen Qin, Duanyu Feng,…