Stochastic gradient descent – Page 14

July 13, 2025

Decentralized Optimization in Time-Varying Networks with Arbitrary Delaysby Tomas Ortega, Hamid JafarkhaniFirst submitted to arxiv…

July 13, 2025

Learning to Continually Learn with the Bayesian Principleby Soochan Lee, Hyeonseong Jeon, Jaehyeon Son, Gunhee…

July 13, 2025

The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasksby Gongyue Zhang, Honghai…

July 13, 2025

A Hessian-Aware Stochastic Differential Equation for Modelling SGDby Xiang Li, Zebang Shen, Liang Zhang, Niao…

July 13, 2025

Adaptive debiased SGD in high-dimensional GLMs with streaming databy Ruijian Han, Lan Luo, Yuanhang Luo,…

July 13, 2025

Bias in Motion: Theoretical Insights into the Dynamics of Bias in SGD Trainingby Anchit Jain,…

July 13, 2025

Understanding Forgetting in Continual Learning with Linear Regressionby Meng Ding, Kaiyi Ji, Di Wang, Jinhui…

July 13, 2025

Matrix Low-Rank Approximation For Policy Gradient Methodsby Sergio Rozada, Antonio G. MarquesFirst submitted to arxiv…

July 13, 2025

Clip Body and Tail Separately: High Probability Guarantees for DPSGD with Heavy Tailsby Haichao Sha,…

July 13, 2025

Dual-Delayed Asynchronous SGD for Arbitrarily Heterogeneous Databy Xiaolu Wang, Yuchang Sun, Hoi-To Wai, Jun ZhangFirst…