Token – Page 64 – GrooveSquid.com

July 13, 2025

An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixelsby Duy-Kien Nguyen,…

July 13, 2025

Learning positional encodings in transformers depends on initializationby Takuya Ito, Luca Cocchi, Tim Klinger, Parikshit…

July 13, 2025

A Concept-Based Explainability Framework for Large Multimodal Modelsby Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Alasdair…

July 13, 2025

REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropyby Haw-Shiuan Chang, Nanyun…

July 13, 2025

Entropy-Reinforced Planning with Large Language Models for Drug Discoveryby Xuefeng Liu, Chih-chan Tien, Peng Ding,…

July 13, 2025

Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannotby Zixuan Wang, Stanley Wei, Daniel…

July 13, 2025

Scaling the Vocabulary of Non-autoregressive Models for Efficient Generative Retrievalby Ravisri Valluri, Akash Kumar Mohankumar,…

July 13, 2025

REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learningby Sungho Jeon, Xinyue Ma, Kwang In Kim, Myeongjae…

July 13, 2025

Transformers need glasses! Information over-squashing in language tasksby Federico Barbero, Andrea Banino, Steven Kapturowski, Dharshan…

July 13, 2025

What Should Embeddings Embed? Autoregressive Models Represent Latent Generating Distributionsby Liyi Zhang, Michael Y. Li,…