Quantization – Page 22 – GrooveSquid.com

July 13, 2025

EXAQ: Exponent Aware Quantization For LLMs Accelerationby Moran Shkolnik, Maxim Fishman, Brian Chmiel, Hilla Ben-Yaacov,…

July 13, 2025

Overcoming Representation Bias in Fairness-Aware data Repair using Optimal Transportby Abigail Langbridge, Anthony Quinn, Robert…

July 13, 2025

SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Accelerationby Jintao Zhang, Jia wei, Haofeng Huang, Pengle…

July 13, 2025

SEAL: SEmantic-Augmented Imitation Learning via Language Modelby Chengyang Gu, Yuxin Pan, Haotian Bai, Hui Xiong,…

July 13, 2025

Quantized and Asynchronous Federated Learningby Tomas Ortega, Hamid JafarkhaniFirst submitted to arxiv on: 30 Sep…

July 13, 2025

Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inferenceby Ke Yi, Zengke Liu, Jianwei…

July 13, 2025

Constraint Guided Model Quantization of Neural Networksby Quinten Van Baelen, Peter KarsmakersFirst submitted to arxiv…

July 13, 2025

Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Coresby Shaobo Ma, Chao…

July 13, 2025

Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Modelsby Hui-Po Wang,…

July 13, 2025

INT-FlashAttention: Enabling Flash Attention for INT8 Quantizationby Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng,…