Optimization – Page 258 – GrooveSquid.com

July 13, 2025

Self-Play Preference Optimization for Language Model Alignmentby Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji,…

July 13, 2025

MetaRM: Shifted Distributions Alignment via Meta-Learningby Shihan Dou, Yan Liu, Enyu Zhou, Tianlong Li, Haoxiang…

July 13, 2025

Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learningby Yuxi Xie, Anirudh Goyal, Wenyue…

July 13, 2025

Leveraging Active Subspaces to Capture Epistemic Model Uncertainty in Deep Generative Models for Molecular Designby…

July 13, 2025

iMTSP: Solving Min-Max Multiple Traveling Salesman Problem with Imperative Learningby Yifan Guo, Zhongqiang Ren, Chen…

July 13, 2025

Joint Optimization of Piecewise Linear Ensemblesby Matt Raymond, Angela Violi, Clayton ScottFirst submitted to arxiv…

July 13, 2025

Enhancing Predictive Accuracy in Pharmaceutical Sales Through An Ensemble Kernel Gaussian Process Regression Approachby Shahin…

July 13, 2025

Continual Model-based Reinforcement Learning for Data Efficient Wireless Network Optimisationby Cengis Hasan, Alexandros Agapitos, David…

July 13, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHFby Han Zhong, Zikang Shan, Guhao Feng, Wei…

July 13, 2025

Unleashing the Power of Multi-Task Learning: A Comprehensive Survey Spanning Traditional, Deep, and Pretrained Foundation…