Gradient descent – Page 10

July 13, 2025

On the Learn-to-Optimize Capabilities of Transformers in In-Context Sparse Recoveryby Renpu Liu, Ruida Zhou, Cong…

July 13, 2025

Low-Rank Adversarial PGD Attackby Dayana Savostianova, Emanuele Zangrando, Francesco TudiscoFirst submitted to arxiv on: 16…

July 13, 2025

State-space models can learn in-context by gradient descentby Neeraj Mohan Sushma, Yudou Tian, Harshvardhan Mestha,…

July 13, 2025

On the Training Convergence of Transformers for In-Context Classification of Gaussian Mixturesby Wei Shen, Ruida…

July 13, 2025

Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrixby Yingyu Liang, Jiangxuan Long, Zhenmei…

July 13, 2025

Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descentby Bo Chen,…

July 13, 2025

Fast Second-Order Online Kernel Learning through Incremental Matrix Sketching and Decompositionby Dongxie Wen, Xiao Zhang,…

July 13, 2025

Robust Gradient Descent for Phase Retrievalby Alex Buna, Patrick RebeschiniFirst submitted to arxiv on: 14…

July 13, 2025

ROSAR: An Adversarial Re-Training Framework for Robust Side-Scan Sonar Object Detectionby Martin Aubard, László Antal,…

July 13, 2025

Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networksby Binghui…