Perplexity – Page 6 – GrooveSquid.com

July 13, 2025

SKIM: Any-bit Quantization Pushing The Limits of Post-Training Quantizationby Runsheng Bai, Bo Liu, Qiang LiuFirst…

July 13, 2025

DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotationby Jingyang Xiang, Sai…

July 13, 2025

COAP: Memory-Efficient Training with Correlation-Aware Gradient Projectionby Jinqi Xiao, Shen Sang, Tiancheng Zhi, Jing Liu,…

July 13, 2025

Pushing the Limits of Large Language Model Quantization via the Linearity Theoremby Vladimir Malinovskii, Andrei…

July 13, 2025

Attamba: Attending To Multi-Token Statesby Yash Akhauri, Safeen Huda, Mohamed S. AbdelfattahFirst submitted to arxiv…

July 13, 2025

CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuningby Fanxu Meng, Pingzhi Tang, Fan jiang, Muhan ZhangFirst…

July 13, 2025

Is Training Data Quality or Quantity More Impactful to Small Language Model Performance?by Aryan Sajith,…

July 13, 2025

FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformersby Zehua Pei, Hui-Ling Zhen, Xianzhi Yu, Sinno…

July 13, 2025

Deriving Activation Functions Using Integrationby Allen Hao Huang, Imanol SchlagFirst submitted to arxiv on: 20…

July 13, 2025

Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guaranteesby Thien Hang…