Reinforcement learning – Page 147

July 13, 2025

Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedbackby Zhirui Chen, Vincent Y. F.…

July 13, 2025

More Efficient Randomized Exploration for Reinforcement Learning via Approximate Samplingby Haque Ishfaq, Yixin Tan, Yu…

July 13, 2025

Demystifying the Recency Heuristic in Temporal-Difference Learningby Brett Daley, Marlos C. Machado, Martha WhiteFirst submitted…

July 13, 2025

Is poisoning a real threat to LLM alignment? Maybe more so than you thinkby Pankayaraj…

July 13, 2025

Adding Conditional Control to Diffusion Models with Reinforcement Learningby Yulai Zhao, Masatoshi Uehara, Gabriele Scalia,…

July 13, 2025

Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Plannerby Kenneth Li,…

July 13, 2025

The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximationby Noah…

July 13, 2025

Measuring memorization in RLHF for code completionby Aneesh Pappu, Billy Porter, Ilia Shumailov, Jamie HayesFirst…

July 13, 2025

Optimal Transport-Assisted Risk-Sensitive Q-Learningby Zahra Shahrooei, Ali BaheriFirst submitted to arxiv on: 17 Jun 2024CategoriesMain:…

July 13, 2025

Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamicsby Runzhe Wu, Ayush Sekhari, Akshay…