Transformer – Page 202 – GrooveSquid.com

Loading Now

July 13, 2025

Summary of Fit: Flexible Vision Transformer For Diffusion Model, by Zeyu Lu et al.

FiT: Flexible Vision Transformer for Diffusion Modelby Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu,…

July 13, 2025

Summary of Dictionary Learning Improves Patch-free Circuit Discovery in Mechanistic Interpretability: a Case Study on Othello-gpt, by Zhengfu He et al.

Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic Interpretability: A Case Study on Othello-GPTby Zhengfu…

July 13, 2025

Summary of A Mechanistic Analysis Of a Transformer Trained on a Symbolic Multi-step Reasoning Task, by Jannik Brinkmann et al.

A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Taskby Jannik Brinkmann,…

July 13, 2025

Summary of Spatio-temporal Few-shot Learning Via Diffusive Neural Network Generation, by Yuan Yuan et al.

Spatio-Temporal Few-Shot Learning via Diffusive Neural Network Generationby Yuan Yuan, Chenyang Shao, Jingtao Ding, Depeng…

July 13, 2025

Summary of Infuserki: Enhancing Large Language Models with Knowledge Graphs Via Infuser-guided Knowledge Integration, by Fali Wang et al.

InfuserKI: Enhancing Large Language Models with Knowledge Graphs via Infuser-Guided Knowledge Integrationby Fali Wang, Runxue…

July 13, 2025

Summary of A Curious Case Of Searching For the Correlation Between Training Data and Adversarial Robustness Of Transformer Textual Models, by Cuong Dang et al.

A Curious Case of Searching for the Correlation between Training Data and Adversarial Robustness of…

July 13, 2025

Summary of The Evolution Of Statistical Induction Heads: In-context Learning Markov Chains, by Benjamin L. Edelman et al.

The Evolution of Statistical Induction Heads: In-Context Learning Markov Chainsby Benjamin L. Edelman, Ezra Edelman,…

July 13, 2025

Summary of Measuring and Controlling Instruction (in)stability in Language Model Dialogs, by Kenneth Li et al.

Measuring and Controlling Instruction (In)Stability in Language Model Dialogsby Kenneth Li, Tianle Liu, Naomi Bashkansky,…

July 13, 2025

Summary of In Search Of Needles in a 11m Haystack: Recurrent Memory Finds What Llms Miss, by Yuri Kuratov et al.

In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Missby Yuri…

July 13, 2025

Summary of An End-to-end Attention-based Approach For Learning on Graphs, by David Buterez et al.

An end-to-end attention-based approach for learning on graphsby David Buterez, Jon Paul Janet, Dino Oglic,…