Attention – Page 84 – GrooveSquid.com

July 13, 2025

Exploring Accuracy-Fairness Trade-off in Large Language Modelsby Qingquan Zhang, Qiqi Duan, Bo Yuan, Yuhui Shi,…

July 13, 2025

Multiset Transformer: Advancing Representation Learning in Persistence Diagramsby Minghua Wang, Ziyun Huang, Jinhui XuFirst submitted…

July 13, 2025

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Modelsby Javier Ferrando, Oscar…

July 13, 2025

Hymba: A Hybrid-head Architecture for Small Language Modelsby Xin Dong, Yonggan Fu, Shizhe Diao, Wonmin…

July 13, 2025

Transformers with Sparse Attention for Granger Causalityby Riya Mahesh, Rahul Vashisht, Chandrashekar LakshminarayananFirst submitted to…

July 13, 2025

LLMSteer: Improving Long-Context LLM Inference by Steering Attention on Reused Contextsby Zhuohan Gu, Jiayi Yao,…

July 13, 2025

Selective Attention: Enhancing Transformer through Principled Context Controlby Xuechen Zhang, Xiangyu Chang, Mingchen Li, Amit…

July 13, 2025

Transformer Neural Processes - Kernel Regressionby Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta…

July 13, 2025

Higher Order Graph Attention Probabilistic Walk Networksby Thomas Bailie, Yun Sing Koh, Karthik MukkavilliFirst submitted…

July 13, 2025

Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformersby Tiberiu MusatFirst submitted to arxiv…