Attention – Page 113 – GrooveSquid.com

July 13, 2025

Decomposable Transformer Point Processesby Aristeidis PanosFirst submitted to arxiv on: 26 Sep 2024CategoriesMain: Machine Learning…

July 13, 2025

A multi-source data power load forecasting method using attention mechanism-based parallel cnn-gruby Chao Min, Yijia…

July 13, 2025

HydraViT: Stacking Heads for a Scalable ViTby Janek Haberer, Ali Hojjat, Olaf LandsiedelFirst submitted to…

July 13, 2025

Benign Overfitting in Token Selection of Attention Mechanismby Keitaro Sakamoto, Issei SatoFirst submitted to arxiv…

July 13, 2025

CASPFormer: Trajectory Prediction from BEV Images with Deformable Attentionby Harsh Yadav, Maximilian Schaefer, Kun Zhao,…

July 13, 2025

Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reductionby Zhenmei…

July 13, 2025

Non-asymptotic Convergence of Training Transformers for Next-token Predictionby Ruiquan Huang, Yingbin Liang, Jing YangFirst submitted…

July 13, 2025

INT-FlashAttention: Enabling Flash Attention for INT8 Quantizationby Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng,…

July 13, 2025

Supervised Fine-Tuning Achieve Rapid Task Adaption Via Alternating Attention Head Activation Patternsby Yang Zhao, Li…

July 13, 2025

Trajectory Anomaly Detection with Language Modelsby Jonathan Mbuya, Dieter Pfoser, Antonios AnastasopoulosFirst submitted to arxiv…