Attention – Page 112 – GrooveSquid.com

July 13, 2025

nGPT: Normalized Transformer with Representation Learning on the Hypersphereby Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun,…

July 13, 2025

Replacing Paths with Connection-Biased Attention for Knowledge Graph Completionby Sharmishtha Dutta, Alex Gittens, Mohammed J.…

July 13, 2025

Simplified priors for Object-Centric Learningby Vihang Patil, Andreas Radler, Daniel Klotz, Sepp HochreiterFirst submitted to…

July 13, 2025

Sparse Attention Decomposition Applied to Circuit Tracingby Gabriel Franco, Mark CrovellaFirst submitted to arxiv on:…

July 13, 2025

Characterizing and Efficiently Accelerating Multimodal Generation Model Inferenceby Yejin Lee, Anna Sun, Basil Hosmer, Bilge…

July 13, 2025

Continuous-Time Linear Positional Embedding for Irregular Time Series Forecastingby Byunghyun Kim, Jae-Gil LeeFirst submitted to…

July 13, 2025

Cottention: Linear Transformers With Cosine Attentionby Gabriel Mongaras, Trevor Dohm, Eric C. LarsonFirst submitted to…

July 13, 2025

Token Caching for Diffusion Transformer Accelerationby Jinming Lou, Wenyang Luo, Yufan Liu, Bing Li, Xinmiao…

July 13, 2025

Towards an active-learning approach to resource allocation for population-based damage prognosisby George Tsialiamanis, Keith Worden,…

July 13, 2025

Latent Representation Learning for Multimodal Brain Activity Translationby Arman Afrasiyabi, Dhananjay Bhaskar, Erica L. Busch,…