Self attention – Page 28 – GrooveSquid.com

July 13, 2025

DAGER: Exact Gradient Inversion for Large Language Modelsby Ivo Petrov, Dimitar I. Dimitrov, Maximilian Baader,…

July 13, 2025

Linking In-context Learning in Transformers to Human Episodic Memoryby Li Ji-An, Corey Y. Zhou, Marcus…

July 13, 2025

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networksby Michelle Halbheer, Dominik J. Mühlematter, Alexander Becker, Dominik…

July 13, 2025

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radarby Fangqiang Ding, Xiangyu Wen, Yunzhou Zhu,…

July 13, 2025

DCT-Based Decorrelated Attention for Vision Transformersby Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Koushik Biswas, Ahmet…

July 13, 2025

Next-token prediction capacity: general upper bounds and a lower bound for transformersby Liam Madden, Curtis…

July 13, 2025

Unlocking the Power of Patch: Patch-Based MLP for Long-Term Time Series Forecastingby Peiwang Tang, Weitai…

July 13, 2025

A Robust Autoencoder Ensemble-Based Approach for Anomaly Detection in Textby Jeremie Pantin, Christophe MarsalaFirst submitted…

July 13, 2025

Transformer in Touch: A Surveyby Jing Gao, Ning Cheng, Bin Fang, Wenjuan HanFirst submitted to…

July 13, 2025

Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrievalby…