Token – Page 65 – GrooveSquid.com

July 13, 2025

Pre-trained Large Language Models Use Fourier Features to Compute Additionby Tianyi Zhou, Deqing Fu, Vatsal…

July 13, 2025

Block Transformer: Global-to-Local Language Modeling for Fast Inferenceby Namgyu Ho, Sangmin Bae, Taehyeon Kim, Hyunjik…

July 13, 2025

Aligning Large Language Models via Fine-grained Supervisionby Dehong Xu, Liang Qiu, Minseok Kim, Faisal Ladhak,…

July 13, 2025

Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Taskby Siavash Golkar, Alberto Bietti,…

July 13, 2025

Loki: Low-rank Keys for Efficient Sparse Attentionby Prajwal Singhania, Siddharth Singh, Shwai He, Soheil Feizi,…

July 13, 2025

Parrot: Multilingual Visual Instruction Tuningby Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi,…

July 13, 2025

FFNet: MetaMixer-based Efficient Convolutional Mixer Designby Seokju Yun, Dongheon Lee, Youngmin RoFirst submitted to arxiv…

July 13, 2025

Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIPby Sriram Balasubramanian, Samyadeep Basu,…

July 13, 2025

TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignmentby Chenxi Liu, Qianxiong Xu, Hao…

July 13, 2025

Understanding Token Probability Encoding in Output Embeddingsby Hakaze Cho, Yoshihiro Sakai, Kenshiro Tanaka, Mariko Kato,…