Softmax – Page 6 – GrooveSquid.com

July 13, 2025

Power-Softmax: Towards Secure LLM Inference over Encrypted Databy Itamar Zimerman, Allon Adir, Ehud Aharoni, Matan…

July 13, 2025

Training on Fake Labels: Mitigating Label Leakage in Split Learning via Secure Dimension Transformationby Yukun…

July 13, 2025

Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layersby…

July 13, 2025

Benign Overfitting in Single-Head Attentionby Roey Magen, Shuning Shang, Zhiwei Xu, Spencer Frei, Wei Hu,…

July 13, 2025

Upcycling Large Language Models into Mixture of Expertsby Ethan He, Abhinav Khattar, Ryan Prenger, Vijay…

July 13, 2025

Differential Transformerby Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu…

July 13, 2025

EXAQ: Exponent Aware Quantization For LLMs Accelerationby Moran Shkolnik, Maxim Fishman, Brian Chmiel, Hilla Ben-Yaacov,…

July 13, 2025

On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functionsby Huy Nguyen, Xing…

July 13, 2025

Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalizationby Jiarui Jiang, Wei…

July 13, 2025

Cottention: Linear Transformers With Cosine Attentionby Gabriel Mongaras, Trevor Dohm, Eric C. LarsonFirst submitted to…