Softmax – Page 7 – GrooveSquid.com

Loading Now

July 13, 2025

Summary of Maskllm: Learnable Semi-structured Sparsity For Large Language Models, by Gongfan Fang et al.

MaskLLM: Learnable Semi-Structured Sparsity for Large Language Modelsby Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg…

July 13, 2025

Summary of Graph Similarity Regularized Softmax For Semi-supervised Node Classification, by Yiming Yang et al.

Graph Similarity Regularized Softmax for Semi-Supervised Node Classificationby Yiming Yang, Jun Liu, Wei WanFirst submitted…

July 13, 2025

Summary of Embedding Geometries Of Contrastive Language-image Pre-training, by Jason Chuan-chih Chou et al.

Embedding Geometries of Contrastive Language-Image Pre-Trainingby Jason Chuan-Chih Chou, Nahid AlamFirst submitted to arxiv on:…

July 13, 2025

Summary of Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers, by Siyu Chen et al.

Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformersby Siyu Chen, Heejune Sheen,…

July 13, 2025

Summary of Learning Large Softmax Mixtures with Warm Start Em, by Xin Bing and Florentina Bunea and Jonathan Niles-weed and Marten Wegkamp

Learning large softmax mixtures with warm start EMby Xin Bing, Florentina Bunea, Jonathan Niles-Weed, Marten…

July 13, 2025

Summary of Opal: Outlier-preserved Microscaling Quantization Accelerator For Generative Large Language Models, by Jahyun Koo et al.

OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Modelsby Jahyun Koo, Dahoon Park, Sangwoo…

July 13, 2025

Summary of Low Latency Transformer Inference on Fpgas For Physics Applications with Hls4ml, by Zhixing Jiang et al.

Low Latency Transformer Inference on FPGAs for Physics Applications with hls4mlby Zhixing Jiang, Dennis Yin,…

July 13, 2025

Summary of Theory, Analysis, and Best Practices For Sigmoid Self-attention, by Jason Ramapuram et al.

Theory, Analysis, and Best Practices for Sigmoid Self-Attentionby Jason Ramapuram, Federico Danieli, Eeshan Dhekane, Floris…

July 13, 2025

Summary of Whittle Index Learning Algorithms For Restless Bandits with Constant Stepsizes, by Vishesh Mittal et al.

Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizesby Vishesh Mittal, Rahul Meshram, Surya…

July 13, 2025

Summary of A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks, by Nicholas Monath et al.

A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networksby Nicholas Monath,…