Language model – Page 80 – GrooveSquid.com

Loading Now

July 13, 2025

Summary of Mini-sequence Transformer: Optimizing Intermediate Memory For Long Sequences Training, by Cheng Luo et al.

Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Trainingby Cheng Luo, Jiawei Zhao, Zhuoming Chen,…

July 13, 2025

Summary of Clip with Generative Latent Replay: a Strong Baseline For Incremental Learning, by Emanuele Frascaroli et al.

CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learningby Emanuele Frascaroli, Aniello Panariello,…

July 13, 2025

Summary of Generalization V.s. Memorization: Tracing Language Models’ Capabilities Back to Pretraining Data, by Xinyi Wang et al.

Generalization v.s. Memorization: Tracing Language Models’ Capabilities Back to Pretraining Databy Xinyi Wang, Antonis Antoniades,…

July 13, 2025

Summary of Jumping Ahead: Improving Reconstruction Fidelity with Jumprelu Sparse Autoencoders, by Senthooran Rajamanoharan et al.

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencodersby Senthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat,…

July 13, 2025

Summary of Hecix: Integrating Knowledge Graphs and Large Language Models For Biomedical Research, by Prerana Sanjay Kulkarni et al.

HeCiX: Integrating Knowledge Graphs and Large Language Models for Biomedical Researchby Prerana Sanjay Kulkarni, Muskaan…

July 13, 2025

Summary of Rdbe: Reasoning Distillation-based Evaluation Enhances Automatic Essay Scoring, by Ali Ghiasvand Mohammadkhani

RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoringby Ali Ghiasvand MohammadkhaniFirst submitted to arxiv on:…

July 13, 2025

Summary of Correcting the Mythos Of Kl-regularization: Direct Alignment Without Overoptimization Via Chi-squared Preference Optimization, by Audrey Huang et al.

Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimizationby Audrey Huang,…

July 13, 2025

Summary of Patch-level Training For Large Language Models, by Chenze Shao et al.

Patch-Level Training for Large Language Modelsby Chenze Shao, Fandong Meng, Jie ZhouFirst submitted to arxiv…

July 13, 2025

Summary of Analyzing the Generalization and Reliability Of Steering Vectors, by Daniel Tan et al.

Analyzing the Generalization and Reliability of Steering Vectorsby Daniel Tan, David Chanin, Aengus Lynch, Dimitrios…

July 13, 2025

Summary of Spectra: Surprising Effectiveness Of Pretraining Ternary Language Models at Scale, by Ayush Kaushal et al.

Spectra: Surprising Effectiveness of Pretraining Ternary Language Models at Scaleby Ayush Kaushal, Tejas Vaidhya, Arnab…