Multi head attention – Page 4

July 13, 2025

Towards Better Multi-head Attention via Channel-wise Sample Permutationby Shen Yuan, Hongteng XuFirst submitted to arxiv…

July 13, 2025

Efficiently Scanning and Resampling Spatio-Temporal Tasks with Irregular Observationsby Bryce Ferenczi, Michael Burke, Tom DrummondFirst…

July 13, 2025

Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineeringby Kazumoto Nakamura, Yuji Nozawa, Yu-Chieh…

July 13, 2025

Equivariant Neural Functional Networks for Transformersby Viet-Hoang Tran, Thieu N. Vo, An Nguyen The, Tho…

July 13, 2025

HydraViT: Stacking Heads for a Scalable ViTby Janek Haberer, Ali Hojjat, Olaf LandsiedelFirst submitted to…

July 13, 2025

Test Time Learning for Time Series Forecastingby Panayiotis Christou, Shichu Chen, Xupeng Chen, Parijat DubeFirst…

July 13, 2025

Low Latency Transformer Inference on FPGAs for Physics Applications with hls4mlby Zhixing Jiang, Dennis Yin,…

July 13, 2025

Multi-Modal Adapter for Vision-Language Modelsby Dominykas Seputis, Serghei Mihailov, Soham Chatterjee, Zehao XiaoFirst submitted to…

July 13, 2025

Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New…

July 13, 2025

How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regressionby…