Transformer – Page 98 – GrooveSquid.com

July 13, 2025

Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrixby Yingyu Liang, Jiangxuan Long, Zhenmei…

July 13, 2025

Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descentby Bo Chen,…

July 13, 2025

UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mambaby Li Wu, Wenbin Pei,…

July 13, 2025

TraM : Enhancing User Sleep Prediction with Transformer-based Multivariate Time Series Modeling and Machine Learning…

July 13, 2025

Rethinking Graph Transformer Architecture Design for Node Classificationby Jiajun Zhou, Xuanze Chen, Chenxuan Xie, Yu…

July 13, 2025

Towards Better Multi-head Attention via Channel-wise Sample Permutationby Shen Yuan, Hongteng XuFirst submitted to arxiv…

July 13, 2025

What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysisby Weronika…

July 13, 2025

HART: Efficient Visual Generation with Hybrid Autoregressive Transformerby Haotian Tang, Yecheng Wu, Shang Yang, Enze…

July 13, 2025

Transforming Game Play: A Comparative Study of DCQN and DTQN Architectures in Reinforcement Learningby William…

July 13, 2025

Transparent Networks for Multivariate Time Seriesby Minkyu Kim, Suan Lee, Jinho KimFirst submitted to arxiv…