Quantization – Page 29 – GrooveSquid.com

July 13, 2025

Mamba-PTQ: Outlier Channels in Recurrent Large Language Modelsby Alessandro Pierro, Steven AbreuFirst submitted to arxiv…

July 13, 2025

Spectra: Surprising Effectiveness of Pretraining Ternary Language Models at Scaleby Ayush Kaushal, Tejas Vaidhya, Arnab…

July 13, 2025

Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deploymentby Yuhao Ji, Chao Fang,…

July 13, 2025

Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectorsby Matt Gorbett,…

July 13, 2025

Exploring Quantization for Efficient Pre-Training of Transformer Language Modelsby Kamran Chitsaz, Quentin Fournier, Gonçalo Mordido,…

July 13, 2025

LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matricesby Jung Hyun…

July 13, 2025

EfficientQAT: Efficient Quantization-Aware Training for Large Language Modelsby Mengzhao Chen, Wenqi Shao, Peng Xu, Jiahao…

July 13, 2025

ISQuant: apply squant to the real deploymentby Dezan ZhaoFirst submitted to arxiv on: 5 Jul…

July 13, 2025

Integer-only Quantized Transformers for Embedded FPGA-based Time-series Forecasting in AIoTby Tianheng Ling, Chao Qian, Gregor…

July 13, 2025

Fast Matrix Multiplications for Lookup Table-Quantized LLMsby Han Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley,…