Mixture of experts – Page 16

July 13, 2025

Understanding the Performance and Estimating the Cost of LLM Fine-Tuningby Yuchen Xia, Jiho Kim, Yuhan…

July 13, 2025

HMDN: Hierarchical Multi-Distribution Network for Click-Through Rate Predictionby Xingyu Lou, Yu Yang, Kuiyao Dong, Heyuan…

July 13, 2025

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Expertsby Xi Victoria Lin, Akshat Shrivastava, Liang…

July 13, 2025

Distribution Learning for Molecular Regressionby Nima Shoghi, Pooya Shoghi, Anuroop Sriram, Abhishek DasFirst submitted to…

July 13, 2025

Time series forecasting with high stakes: A field study of the air cargo industryby Abhinav…

July 13, 2025

Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasksby Jingze Shi, Bingheng Wu,…

July 13, 2025

Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budgetby Vikash Sehwag, Xianghao Kong, Jingtao…

July 13, 2025

Discussion: Effective and Interpretable Outcome Prediction by Training Sparse Mixtures of Linear Expertsby Francesco Folino,…

July 13, 2025

Mixture of Experts based Multi-task Supervise Learning from Crowdsby Tao Han, Huaixuan Shi, Xinyi Ding,…

July 13, 2025

DLO: Dynamic Layer Operation for Efficient Vertical Scaling of LLMsby Zhen Tan, Daize Dong, Xinyu…