Mixture of experts – Page 4

July 13, 2025

LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-designby Rui Kong, Qiyang Li,…

July 13, 2025

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Modelsby Jingwei Xu, Junyu Lai, Yunpeng HuangFirst submitted…

July 13, 2025

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Expertsby Yunxin Li, Shenyuan Jiang, Baotian Hu,…

July 13, 2025

Many Hands Make Light Work: Task-Oriented Dialogue System with Module-Based Mixture-of-Expertsby Ruolin Su, Biing-Hwang JuangFirst…

July 13, 2025

SUTRA: Scalable Multilingual Language Model Architectureby Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon…

July 13, 2025

A Mixture-of-Experts Approach to Few-Shot Task Transfer in Open-Ended Text Worldsby Christopher Z. Cui, Xiangyu…

July 13, 2025

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Modelby DeepSeek-AI, Aixin Liu, Bei Feng, Bin…

July 13, 2025

Mix of Experts Language Model for Named Entity Recognitionby Xinwei Chen, Kun Li, Tianyou Song,…

July 13, 2025

MMoE: Robust Spoiler Detection with Multi-modal Information and Domain-aware Mixture-of-Expertsby Zinan Zeng, Sen Ye, Zijian…

July 13, 2025

ConstitutionalExperts: Training a Mixture of Principle-based Promptsby Savvas Petridis, Ben Wedin, Ann Yuan, James Wexler,…