Reinforcement learning – Page 126

July 13, 2025

Score matching for bridges without learning time-reversalsby Elizabeth L. Baker, Moritz Schauer, Stefan SommerFirst submitted…

July 13, 2025

MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Searchby Peng Cheng, Huimu…

July 13, 2025

Proximal Policy Distillationby Giacomo SpiglerFirst submitted to arxiv on: 21 Jul 2024CategoriesMain: Machine Learning (cs.LG)Secondary:…

July 13, 2025

Mitigating Deep Reinforcement Learning Backdoors in the Neural Activation Spaceby Sanyam Vyas, Chris Hicks, Vasilios…

July 13, 2025

Temporal Abstraction in Reinforcement Learning with Offline Databy Ranga Shaarad Ayyagari, Anurita Ghosh, Ambedkar DukkipatiFirst…

July 13, 2025

Enhancing Hardware Fault Tolerance in Machines with Reinforcement Learning Policy Gradient Algorithmsby Sheila Schoepp, Mehran…

July 13, 2025

POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfindingby Alexey Skrynnik, Anton Andreychuk, Anatolii Borzilov, Alexander…

July 13, 2025

Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Promptsby Yi Liu, Chengjun…

July 13, 2025

Rocket Landing Control with Random Annealing Jump Start Reinforcement Learningby Yuxuan Jiang, Yujie Yang, Zhiqian…

July 13, 2025

Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecificationby Thomas Kwa,…