Quantization – Page 34 – GrooveSquid.com

July 13, 2025

Q-S5: Towards Quantized State Space Modelsby Steven Abreu, Jens E. Pedersen, Kade M. Heckel, Alessandro…

July 13, 2025

ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Modelsby Jing Liu, Ruihao Gong, Mingyang…

July 13, 2025

QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Expertsby Pingzhi Li, Xiaolong Jin, Zhen Tan, Yu Cheng, Tianlong…

July 13, 2025

Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimizationby Jiaxin Deng, Junbiao Pang, Baochang ZhangFirst…

July 13, 2025

Image and Video Tokenization with Binary Spherical Quantizationby Yue Zhao, Yuanjun Xiong, Philipp KrähenbühlFirst submitted…

July 13, 2025

TernaryLLM: Ternarized Large Language Modelby Tianqi Chen, Zhe Li, Weixiang Xu, Zeyu Zhu, Dong Li,…

July 13, 2025

Low-Rank Quantization-Aware Training for LLMsby Yelysei Bondarenko, Riccardo Del Chiaro, Markus NagelFirst submitted to arxiv…

July 13, 2025

Efficient Neural Compression with Inference-time Decodingby C. Metz, O. Bichler, A. DupretFirst submitted to arxiv…

July 13, 2025

Winner-takes-all learners are geometry-aware conditional density estimatorsby Victor Letzelter, David Perera, Cédric Rommel, Mathieu Fontaine,…

July 13, 2025

QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overheadby Amir Zandieh, Majid…