Quantization – Page 14 – GrooveSquid.com

July 13, 2025

MixPE: Quantization and Hardware Co-design for Efficient LLM Inferenceby Yu Zhang, Mingzi Wang, Lancheng Zou,…

July 13, 2025

FLARE: FP-Less PTQ and Low-ENOB ADC Based AMS-PiM for Error-Resilient, Fast, and Efficient Transformer Accelerationby…

July 13, 2025

AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuningby Changhai Zhou, Shiyang Zhang, Yuhua Zhou, Zekai…

July 13, 2025

EfQAT: An Efficient Framework for Quantization-Aware Trainingby Saleh Ashkboos, Bram Verhoef, Torsten Hoefler, Evangelos Eleftheriou,…

July 13, 2025

Communication Compression for Tensor Parallel LLM Inferenceby Jan Hansen-Palmus, Michael Truong Le, Oliver Hausdörfer, Alok…

July 13, 2025

Towards Low-bit Communication for Tensor Parallel LLM Inferenceby Harry Dong, Tyler Johnson, Minsik Cho, Emad…

July 13, 2025

ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantizationby Weibo Zhao, Yubin Shi,…

July 13, 2025

Sketched Adaptive Federated Deep Learning: A Sharp Convergence Analysisby Zhijie Chen, Qiaobo Li, Arindam BanerjeeFirst…

July 13, 2025

Expansion Quantization Network: An Efficient Micro-emotion Annotation and Detection Frameworkby Jingyi Zhou, Senlin Luo, Haofan…

July 13, 2025

Intelligent Fault Diagnosis of Type and Severity in Low-Frequency, Low Bit-Depth Signalsby Tito Spadini, Kenji…