Inference – Page 131 – GrooveSquid.com

July 13, 2025

Compute Or Load KV Cache? Why Not Both?by Shuowei Jin, Xueshen Liu, Qingzhao Zhang, Z.…

July 13, 2025

UNComp: Uncertainty-Aware Long-Context Compressor for Efficient Large Language Model Inferenceby Jing Xiong, Jianghan Shen, Fanghua…

July 13, 2025

LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategyby Rongzhi Zhang, Kuang…

July 13, 2025

ProcBench: Benchmark for Multi-Step Reasoning and Following Procedureby Ippei Fujisawa, Sensho Nobe, Hiroki Seto, Rina…

July 13, 2025

DecTrain: Deciding When to Train a Monocular Depth DNN Onlineby Zih-Sing Fu, Soumya Sudhakar, Sertac…

July 13, 2025

DANA: Domain-Aware Neurosymbolic Agents for Consistency and Accuracyby Vinh Luong, Sang Dinh, Shruti Raghavan, William…

July 13, 2025

LLMCO2: Advancing Accurate Carbon Footprint Prediction for LLM Inferencesby Zhenxiao Fu, Fan Chen, Shan Zhou,…

July 13, 2025

Selective Attention Improves Transformerby Yaniv Leviathan, Matan Kalman, Yossi MatiasFirst submitted to arxiv on: 3…

July 13, 2025

Large Language Models as Markov Chainsby Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas…

July 13, 2025

Stochastic variance-reduced Gaussian variational inference on the Bures-Wasserstein manifoldby Hoang Phuc Hau Luu, Hanlin Yu,…