Inference – Page 118 – GrooveSquid.com

July 13, 2025

Progressive Mixed-Precision Decoding for Efficient LLM Inferenceby Hao Mark Chen, Fuwen Tan, Alexandros Kouris, Royson…

July 13, 2025

A theoretical perspective on mode collapse in variational inferenceby Roman Soletskyi, Marylou Gabrié, Bruno LoureiroFirst…

July 13, 2025

LLM-Rank: A Graph Theoretical Approach to Pruning Large Language Modelsby David Hoffmann, Kailash Budhathoki, Matthaeus…

July 13, 2025

BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Modelsby Isack Lee, Haebin SeongFirst submitted…

July 13, 2025

GeSubNet: Gene Interaction Inference for Disease Subtype Network Generationby Ziwei Yang, Zheng Chen, Xin Liu,…

July 13, 2025

AERO: Softmax-Only LLMs for Efficient Private Inferenceby Nandan Kumar Jha, Brandon ReagenFirst submitted to arxiv…

July 13, 2025

Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Modelsby Jie Ren, Kangrui Chen, Chen Chen,…

July 13, 2025

In-context KV-Cache Eviction for LLMs via Attention-Gateby Zihao Zeng, Bokai Lin, Tianqi Hou, Hao Zhang,…

July 13, 2025

Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyondby Costin-Andrei Oncescu,…

July 13, 2025

RecurFormer: Not All Transformer Heads Need Self-Attentionby Ruiqing Yan, Linghan Zheng, Xingbo Du, Han Zou,…