Transformer – Page 115 – GrooveSquid.com

July 13, 2025

Adaptive Large Language Models By Layerwise Attention Shortcutsby Prateek Verma, Mert PilanciFirst submitted to arxiv…

July 13, 2025

Contrasformer: A Brain Network Contrastive Transformer for Neurodegenerative Condition Identificationby Jiaxing Xu, Kai He, Mengcheng…

July 13, 2025

Cross-lingual transfer of multilingual models on low resource African Languagesby Harish Thangaraj, Ananya Chenat, Jaskaran…

July 13, 2025

Kolmogorov-Arnold Transformerby Xingyi Yang, Xinchao WangFirst submitted to arxiv on: 16 Sep 2024CategoriesMain: Machine Learning…

July 13, 2025

Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russianby Anna Glazkova, Dmitry…

July 13, 2025

Mitigating Partial Observability in Adaptive Traffic Signal Control with Transformersby Xiaoyu Wang, Ayal Taitler, Scott…

July 13, 2025

Flash STU: Fast Spectral Transform Unitsby Y. Isabel Liu, Windsor Nguyen, Yagiz Devre, Evan Dogariu,…

July 13, 2025

Causal Language Modeling Can Elicit Search and Reasoning Capabilities on Logic Puzzlesby Kulin Shah, Nishanth…

July 13, 2025

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrievalby Di Liu, Meng Chen, Baotong Lu, Huiqiang…

July 13, 2025

Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformersby Siyu Chen, Heejune Sheen,…