Mixture of experts – Page 20

July 13, 2025

Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Modelsby Yongxin Guo, Zhenglin Cheng,…

July 13, 2025

Mixture of Experts Meets Prompt-Based Continual Learningby Minh Le, An Nguyen, Huy Nguyen, Trang Nguyen,…

July 13, 2025

Statistical Advantages of Perturbing Cosine Router in Mixture of Expertsby Huy Nguyen, Pedram Akbarian, Trang…

July 13, 2025

DirectMultiStep: Direct Route Generation for Multi-Step Retrosynthesisby Yu Shee, Haote Li, Anton Morgunov, Victor BatistaFirst…

July 13, 2025

Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Expertsby Huy Nguyen,…

July 13, 2025

Ensemble and Mixture-of-Experts DeepONets For Operator Learningby Ramansh Sharma, Varun ShankarFirst submitted to arxiv on:…

July 13, 2025

Learning More Generalized Experts by Merging Experts in Mixture-of-Expertsby Sejik ParkFirst submitted to arxiv on:…

July 13, 2025

Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-trainingby Zexuan Zhong, Mengzhou Xia, Danqi Chen,…

July 13, 2025

Hierarchical mixture of discriminative Generalized Dirichlet classifiersby Elvis Togban, Djemel ZiouFirst submitted to arxiv on:…

July 13, 2025

MVMoE: Multi-Task Vehicle Routing Solver with Mixture-of-Expertsby Jianan Zhou, Zhiguang Cao, Yaoxin Wu, Wen Song,…