Model compression – Page 2

July 13, 2025

Summary of Tiny Models Are the Computational Saver For Large Models, by Qingyuan Wang et al.

Tiny Models are the Computational Saver for Large Modelsby Qingyuan Wang, Barry Cardiff, Antoine Frappé,…

July 13, 2025

Summary of Llm Inference Unveiled: Survey and Roofline Model Insights, by Zhihang Yuan et al.

LLM Inference Unveiled: Survey and Roofline Model Insightsby Zhihang Yuan, Yuzhang Shang, Yang Zhou, Zhen…

July 13, 2025

Summary of From Cloud to Edge: Rethinking Generative Ai For Low-resource Design Challenges, by Sai Krishna Revanth Vuruma et al.

From Cloud to Edge: Rethinking Generative AI for Low-Resource Design Challengesby Sai Krishna Revanth Vuruma,…

July 13, 2025

Summary of Memory-efficient Vision Transformers: An Activation-aware Mixed-rank Compression Strategy, by Seyedarmin Azizi et al.

Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank Compression Strategyby Seyedarmin Azizi, Mahdi Nazemi, Massoud PedramFirst submitted…

July 13, 2025

Summary of Model Compression Techniques in Biometrics Applications: a Survey, by Eduarda Caldeira et al.

Model Compression Techniques in Biometrics Applications: A Surveyby Eduarda Caldeira, Pedro C. Neto, Marco Huber,…

July 13, 2025

Summary of Safety and Performance, Why Not Both? Bi-objective Optimized Model Compression Toward Ai Software Deployment, by Jie Zhu et al.

Safety and Performance, Why not Both? Bi-Objective Optimized Model Compression toward AI Software Deploymentby Jie…

July 13, 2025

Summary of Trimllm: Progressive Layer Dropping For Domain-specific Llms, by Lanxiang Hu et al.

TrimLLM: Progressive Layer Dropping for Domain-Specific LLMsby Lanxiang Hu, Tajana Rosing, Hao ZhangFirst submitted to…

July 13, 2025

Summary of Optimising Tinyml with Quantization and Distillation Of Transformer and Mamba Models For Indoor Localisation on Edge Devices, by Thanaphon Suwannaphong et al.

Optimising TinyML with Quantization and Distillation of Transformer and Mamba Models for Indoor Localisation on…

July 13, 2025

Summary of Low-rank Correction For Quantized Llms, by Meyer Scetbon et al.

Low-Rank Correction for Quantized LLMsby Meyer Scetbon, James HensmanFirst submitted to arxiv on: 10 Dec…

July 13, 2025

Summary of Lossless Model Compression Via Joint Low-rank Factorization Optimization, by Boyang Zhang et al.

Lossless Model Compression via Joint Low-Rank Factorization Optimizationby Boyang Zhang, Daning Cheng, Yunquan Zhang, Fangmin…