Inference – Page 137 – GrooveSquid.com

July 13, 2025

Summary of Mnemosyne: Parallelization Strategies For Efficiently Serving Multi-million Context Length Llm Inference Requests Without Approximations, by Amey Agrawal et al.

Mnemosyne: Parallelization Strategies for Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximationsby Amey…

July 13, 2025

Summary of Int-flashattention: Enabling Flash Attention For Int8 Quantization, by Shimao Chen et al.

INT-FlashAttention: Enabling Flash Attention for INT8 Quantizationby Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng,…

July 13, 2025

Summary of Cnn Mixture-of-depths, by Rinor Cakaj et al.

CNN Mixture-of-Depthsby Rinor Cakaj, Jens Mehnert, Bin YangFirst submitted to arxiv on: 25 Sep 2024CategoriesMain:…

July 13, 2025

Summary of Accelerating Tinyml Inference on Microcontrollers Through Approximate Kernels, by Giorgos Armeniakos et al.

Accelerating TinyML Inference on Microcontrollers through Approximate Kernelsby Giorgos Armeniakos, Georgios Mentzos, Dimitrios SoudrisFirst submitted…

July 13, 2025

Summary of Uncertainty Representations in State-space Layers For Deep Reinforcement Learning Under Partial Observability, by Carlos E. Luis et al.

Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observabilityby Carlos E. Luis,…

July 13, 2025

Summary of Alignedkv: Reducing Memory Access Of Kv-cache with Precision-aligned Quantization, by Yifan Tan and Haoze Wang and Chao Yan and Yangdong Deng

AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantizationby Yifan Tan, Haoze Wang, Chao Yan,…

July 13, 2025

Summary of Functional Stochastic Gradient Mcmc For Bayesian Neural Networks, by Mengjing Wu et al.

Functional Stochastic Gradient MCMC for Bayesian Neural Networksby Mengjing Wu, Junyu Xuan, Jie LuFirst submitted…

July 13, 2025

Summary of A Survey Of Low-bit Large Language Models: Basics, Systems, and Algorithms, by Ruihao Gong et al.

A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithmsby Ruihao Gong, Yifu Ding,…

July 13, 2025

Summary of Towards Representation Learning For Weighting Problems in Design-based Causal Inference, by Oscar Clivio et al.

Towards Representation Learning for Weighting Problems in Design-Based Causal Inferenceby Oscar Clivio, Avi Feller, Chris…

July 13, 2025

Summary of A Qoe-aware Split Inference Accelerating Algorithm For Noma-based Edge Intelligence, by Xin Yuan et al.

A QoE-Aware Split Inference Accelerating Algorithm for NOMA-based Edge Intelligenceby Xin Yuan, Ning Li, Quan…