Transformer – Page 162 – GrooveSquid.com

April 15, 2025

UnitNorm: Rethinking Normalization for Transformers in Time Seriesby Nan Huang, Christian Kümmerle, Xiang ZhangFirst submitted…

April 15, 2025

Infinite Limits of Multi-head Transformer Dynamicsby Blake Bordelon, Hamza Tahir Chaudhry, Cengiz PehlevanFirst submitted to…

April 15, 2025

Models That Prove Their Own Correctnessby Noga Amit, Shafi Goldwasser, Orr Paradise, Guy RothblumFirst submitted…

April 15, 2025

Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidenceby Abhinav Patil,…

April 15, 2025

Sequence Length Scaling in Vision Transformers for Scientific Images on Frontierby Aristeidis Tsaris, Chengming Zhang,…

April 15, 2025

MLPs Learn In-Context on Regression and Classification Tasksby William L. Tong, Cengiz PehlevanFirst submitted to…

April 15, 2025

Spectraformer: A Unified Random Feature Framework for Transformerby Duke Nguyen, Aditya Joshi, Flora SalimFirst submitted…

April 15, 2025

iVideoGPT: Interactive VideoGPTs are Scalable World Modelsby Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He,…

April 15, 2025

The Buffer Mechanism for Multi-Step Information Reasoning in Language Modelsby Zhiwei Wang, Yunji Wang, Zhongwang…

April 15, 2025

Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantificationby Shang Liu, Zhongze Cai,…