Transformer – Page 122 – GrooveSquid.com

July 13, 2025

A Law of Next-Token Prediction in Large Language Modelsby Hangfeng He, Weijie J. SuFirst submitted…

July 13, 2025

MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruningby Seungbeom Hu, ChanJun Park, Andrew…

July 13, 2025

Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Timeby Yingyu Liang, Zhizhou Sha, Zhenmei…

July 13, 2025

BankTweak: Adversarial Attack against Multi-Object Trackers by Manipulating Feature Banksby Woojin Shin, Donghwa Kang, Daejin…

July 13, 2025

Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformersby Sayed Mohammad Vakilzadeh…

July 13, 2025

Jamba-1.5: Hybrid Transformer-Mamba Models at Scaleby Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom…

July 13, 2025

AI-driven Transformer Model for Fault Prediction in Non-Linear Dynamic Automotive Systemby Priyanka KumarFirst submitted to…

July 13, 2025

Deep Analysis of Time Series Data for Smart Grid Startup Strategies: A Transformer-LSTM-PSO Model Approachby…

July 13, 2025

Transformers are Minimax Optimal Nonparametric In-Context Learnersby Juno Kim, Tai Nakamaki, Taiji SuzukiFirst submitted to…

July 13, 2025

A Benchmark for AI-based Weather Data Assimilationby Wuxin Wang, Weicheng Ni, Tao Han, Taikang Yuan,…