Attention – Page 103 – GrooveSquid.com

July 13, 2025

Quadratic Gating Functions in Mixture of Experts: A Statistical Insightby Pedram Akbarian, Huy Nguyen, Xing…

July 13, 2025

Mimetic Initialization Helps State Space Models Learn to Recallby Asher Trockman, Hrayr Harutyunyan, J. Zico…

July 13, 2025

3DS: Decomposed Difficulty Data Selection’s Case Study on LLM Medical Domain Adaptationby Hongxin Ding, Yue…

July 13, 2025

Towards Better Multi-head Attention via Channel-wise Sample Permutationby Shen Yuan, Hongteng XuFirst submitted to arxiv…

July 13, 2025

A few-shot Label Unlearning in Vertical Federated Learningby Hanlin Gu, Hong Xi Tae, Chee Seng…

July 13, 2025

What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysisby Weronika…

July 13, 2025

When Attention Sink Emerges in Language Models: An Empirical Viewby Xiangming Gu, Tianyu Pang, Chao…

July 13, 2025

Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesionsby Ruben T. Lucassen, Nikolas Stathonikos, Gerben E. Breimer,…

July 13, 2025

LoLCATs: On Low-Rank Linearizing of Large Language Modelsby Michael Zhang, Simran Arora, Rahul Chalamala, Alan…

July 13, 2025

Learning Linear Attention in Polynomial Timeby Morris Yau, Ekin Akyürek, Jiayuan Mao, Joshua B. Tenenbaum,…