Artificial intelligence – Page 3004

July 13, 2025

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Frameworkby Jian Hu, Xibin Wu, Zilin Zhu, Xianyu,…

July 13, 2025

Towards Modular LLMs by Building and Reusing a Library of LoRAsby Oleksiy Ostapenko, Zhan Su,…

July 13, 2025

Graph Feedback Bandits with Similar Armsby Han Qi, Guo Fei, Li ZhuFirst submitted to arxiv…

July 13, 2025

Accelerating Multilevel Markov Chain Monte Carlo Using Machine Learning Modelsby Sohail Reddy, Hillary FairbanksFirst submitted…

July 13, 2025

Wind Power Prediction across Different Locations using Deep Domain Adaptive Learningby Md Saiful Islam Sajol,…

July 13, 2025

Trustworthy Actionable Perturbationsby Jesse Friedbaum, Sudarshan Adiga, Ravi TandonFirst submitted to arxiv on: 18 May…

July 13, 2025

Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Duelingby Yuwei Cheng, Fan Yao, Xuefeng…

July 13, 2025

Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and Defensesby Thanh Nguyen, Tung…

July 13, 2025

The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedbackby Ruitao Chen, Liwei…

July 13, 2025

OTLP: Output Thresholding Using Mixed Integer Linear Programmingby Baran Koseoglu, Luca Traverso, Mohammed Topiwalla, Egor…