Mixture of experts – Page 3

July 13, 2025

Mixture of Modular Experts: Distilling Knowledge from a Multilingual Teacher into Specialized Modular Language Modelsby…

July 13, 2025

Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routingby Hukai Huang, Shenghui Lu,…

July 13, 2025

How Lightweight Can A Vision Transformer Beby Jen Hong TanFirst submitted to arxiv on: 25…

July 13, 2025

Norface: Improving Facial Expression Analysis by Identity Normalizationby Hanwei Liu, Rudong An, Zhimeng Zhang, Bowen…

July 13, 2025

Qwen2 Technical Reportby An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou,…

July 13, 2025

Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translationby Nadezhda Chirkova, Vassilina Nikoulina,…

July 13, 2025

SimSMoE: Solving Representational Collapse via Similarity Measureby Giang Do, Hung Le, Truyen TranFirst submitted to…

July 13, 2025

AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Modelsby Zihao Zeng, Yibo Miao, Hongcheng…

July 13, 2025

Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Modelsby Tianwen Wei, Bo Zhu,…

July 13, 2025

Yuan 2.0-M32: Mixture of Experts with Attention Routerby Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun…