Optimization – Page 121 – GrooveSquid.com

July 13, 2025

What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysisby Weronika…

July 13, 2025

Liger Kernel: Efficient Triton Kernels for LLM Trainingby Pin-Lun Hsu, Yun Dai, Vignesh Kothapalli, Qingquan…

July 13, 2025

Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Pathsby Yew Ken Chia, Guizhen…

July 13, 2025

COME: Test-time adaption by Conservatively Minimizing Entropyby Qingyang Zhang, Yatao Bian, Xinke Kong, Peilin Zhao,…

July 13, 2025

AFlow: Automating Agentic Workflow Generationby Jiayi Zhang, Jinyu Xiang, Zhaoyang Yu, Fengwei Teng, Xionghui Chen,…

July 13, 2025

Hard-Constrained Neural Networks with Universal Approximation Guaranteesby Youngjae Min, Anoopkumar Sonar, Navid AzizanFirst submitted to…

July 13, 2025

Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processesby Juan Sebastian…

July 13, 2025

Principled Bayesian Optimisation in Collaboration with Human Expertsby Wenjie Xu, Masaki Adachi, Colin N. Jones,…

July 13, 2025

A Kernelizable Primal-Dual Formulation of the Multilinear Singular Value Decompositionby Frederiek Wesel, Kim BatselierFirst submitted…

July 13, 2025

Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent…