Transformer – Page 160 – GrooveSquid.com

April 15, 2025

Summary of Are Self-attentions Effective For Time Series Forecasting?, by Dongbin Kim et al.

Are Self-Attentions Effective for Time Series Forecasting?by Dongbin Kim, Jinseong Park, Jaewook Lee, Hoki KimFirst…

April 15, 2025

Summary of Demystifying Amortized Causal Discovery with Transformers, by Francesco Montagna et al.

Demystifying amortized causal discovery with transformersby Francesco Montagna, Max Cairney-Leeming, Dhanya Sridhar, Francesco LocatelloFirst submitted…

April 15, 2025

Summary of Automatic Domain Adaptation by Transformers in In-context Learning, By Ryuichiro Hataya et al.

Automatic Domain Adaptation by Transformers in In-Context Learningby Ryuichiro Hataya, Kota Matsui, Masaaki ImaizumiFirst submitted…

April 15, 2025

Summary of On Mesa-optimization in Autoregressively Trained Transformers: Emergence and Capability, by Chenyu Zheng et al.

On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capabilityby Chenyu Zheng, Wei Huang, Rongzhen Wang,…

April 15, 2025

Summary of Zamba: a Compact 7b Ssm Hybrid Model, by Paolo Glorioso et al.

Zamba: A Compact 7B SSM Hybrid Modelby Paolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington,…

April 15, 2025

Summary of Amortized Active Causal Induction with Deep Reinforcement Learning, by Yashas Annadani et al.

Amortized Active Causal Induction with Deep Reinforcement Learningby Yashas Annadani, Panagiotis Tigas, Stefan Bauer, Adam…

April 15, 2025

Summary of Disentangling and Integrating Relational and Sensory Information in Transformer Architectures, by Awni Altabaa and John Lafferty

Disentangling and Integrating Relational and Sensory Information in Transformer Architecturesby Awni Altabaa, John LaffertyFirst submitted…

April 15, 2025

Summary of Understanding Linear Probing Then Fine-tuning Language Models From Ntk Perspective, by Akiyoshi Tomihari and Issei Sato

Understanding Linear Probing then Fine-tuning Language Models from NTK Perspectiveby Akiyoshi Tomihari, Issei SatoFirst submitted…

April 15, 2025

Summary of Acceleration Of Grokking in Learning Arithmetic Operations Via Kolmogorov-arnold Representation, by Yeachan Park et al.

Acceleration of Grokking in Learning Arithmetic Operations via Kolmogorov-Arnold Representationby Yeachan Park, Minseok Kim, Yeoneung…

April 15, 2025

Summary of Scalable Numerical Embeddings For Multivariate Time Series: Enhancing Healthcare Data Representation Learning, by Chun-kai Huang et al.

Scalable Numerical Embeddings for Multivariate Time Series: Enhancing Healthcare Data Representation Learningby Chun-Kai Huang, Yi-Hsien…