2025年9月11日,在备受关注的Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合宣布了一项重要的人工智能技术突破——他们共同研发的LLaDA-MoE模型正式亮相。这不仅是业界首个采用原生MoE(Mixture of Experts,混合专家)架构的扩散语言模型(dLLM),更是在约20TB规模的海量数据上从零开始训练而成。其核心亮点在于,LLaDA-MoE在性能上已能比肩主流的自回归模型,同时还具备数倍的推理速度优势。更令人振奋的是,该模型即将完全开源,这无疑将为扩散语言模型技术的发展注入强大动力。

LLaDA-MoE的技术创新

LLaDA-MoE的核心竞争力源于其原生MoE架构与扩散语言模型(dLLM)的深度融合。这并非简单地将MoE结构嫁接在已有的扩散模型上,而是从底层设计就将两者紧密结合,实现了动态路由机制与扩散过程的协同优化,有效解决了训练不稳定和专家负载不均等关键问题。

技术科普:MoE架构 (Mixture of Experts)
MoE架构的核心思想是将一个庞大的模型拆分为多个较小的“专家”子网络和一个“门控”网络。对于每个输入,门控网络会动态决定激活哪些专家子网络进行处理。这种设计使得模型在保持巨大潜力(总参数量)的同时,每次前向计算只需激活部分参数(激活参数量),从而显著提高计算效率和训练、推理速度。

中国人民大学高瓴人工智能学院副教授李崇轩指出,当前主流大模型普遍采用自回归生成范式,这种方式天然是单向建模,难以充分捕捉token间复杂的双向联系。而扩散语言模型(dLLM)则为并行解码提供了新思路。与传统自回归语言模型(如GPT系列)逐个生成token的串行方式不同,扩散语言模型采用非自回归的掩码扩散机制,其核心过程类似于先对一段“噪声”进行逐步去噪,最终重构出完整的文本序列。这种机制使其能够高效捕捉token之间的双向依赖关系,理论上在文本填空、编辑等需要全局理解的任务上具有独特优势。

此前的扩散语言模型多基于稠密架构,难以兼顾MoE在参数扩展与计算效率上的优势。LLaDA-MoE通过原生MoE设计,成功实现了这一点。蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员蓝振忠在发布现场表示:“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味着我们在把dLLM训扩到更大规模的路上又往前走了一步。” 具体而言,LLaDA-MoE激活1.4B参数即可实现等效于3B稠密模型的性能,这直接带来了推理速度与资源利用率的显著提升。

LLaDA-MoE的性能表现

LLaDA-MoE在性能上的表现同样令人瞩目。蚂蚁与人大团队采用蚂蚁自研的统一评测框架,对模型在HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL等17项基准任务上进行了全面评估。结果显示,LLaDA-MoE在代码生成、数学推理、智能体(Agent)等任务上表现优异。

与蚂蚁集团此前的LLaDA-1.5相比,LLaDA-MoE在平均性能上提升了8.4%,在部分关键任务如HumanEval上更是实现了13.2%的显著提升。更重要的是,它与当前主流的自回归模型Qwen2.5-3B-Instruct在核心任务上实现了性能持平甚至超越。

以下表格展示了LLaDA-MoE在主要基准任务上的性能表现:

评测基准(部分) LLaDA-MoE 提升幅度 / 表现 对比模型
HumanEval (代码生成) +13.2% LLaDA-1.5
MBPP (代码生成) +8.4% LLaDA-1.5
GSM8K (数学推理) 持平/超越 Qwen2.5-3B-Instruct
MATH (数学推理) 持平/超越 Qwen2.5-3B-Instruct
代码/数学推理综合 明显领先 Dream-7B、LLaDA1.0/1.5

效率优势 Tip
LLaDA-MoE采用7B-A1B(总参数量7B,激活参数1.4B)的MoE架构。其“激活1.4B参数即可达到3B稠密模型的性能”的特性,意味着在相同或相近性能水平下,LLaDA-MoE能够实现数倍的推理速度优势和更低的资源消耗。这对于实际应用部署至关重要。

初步的社区反馈也指出,尽管LLaDA-MoE在通用对话流畅性、长文本生成一致性方面与传统顶尖自回归模型相比可能仍有差异或特点不同,但在代码和数学推理等需要强逻辑和结构理解的任务上,其优势尤为突出,这也印证了扩散模型在特定领域的潜力。

LLaDA-MoE的训练体系与技术突破

LLaDA-MoE的成功并非偶然,其背后是强大的训练体系和多项技术突破的支撑。蚂蚁与人大团队仅用3个月就完成了模型的核心研发,这得益于高效的协作和技术积累。

模型训练基于蚂蚁Ling2.0基础模型的数据集,总规模约20TB。在架构选择上,采用了7B总参数量、激活参数1.4B的MoE架构。为了实现这一规模的高效训练,团队在多个方面进行了创新:

  1. 关键技术难题突破:成功解决了MoE训练中常见的负载均衡与噪声采样漂移等关键技术难题。
  2. 代码与框架优化:训练代码完全重写,并依托蚂蚁自研的分布式深度学习框架ATorch,实现了EP并行等多项加速技术,为大规模数据训练提供了坚实基础。

蚂蚁集团通用人工智能研究中心主任蓝振忠强调,LLaDA-MoE的成功训练验证了工业级大规模训练的扩展性和稳定性,为dLLM向更大规模发展奠定了基础。

LLaDA-MoE的开源计划与行业影响

蚂蚁集团与人大团队已宣布,将于近期向全球完全开源LLaDA-MoE模型权重及自研推理引擎。该推理引擎针对dLLM的并行特性进行了深度优化,相较于NVIDIA官方的fast-dLLM实现了显著加速。相关代码、技术报告将在GitHub和Hugging Face等主流开源社区同步发布。

这一开源举措无疑将对AI社区产生积极影响。从目前的开源社区动态来看,模型相关资源的发布已引起了广泛关注,GitHub仓库的Star和Fork数量增长迅速。开发者们普遍对“扩散+MoE”这一新颖组合感到兴奋,并已开始进行下游任务微调、推理部署测试和原理复现等工作。许多讨论围绕如何高效利用其并行解码能力,以及探索其在代码生成、数学推理之外的更多应用场景,如数据增强、文本风格迁移等。

业界学者和工程师认为,LLaDA-MoE的开源为整个领域提供了一个强大的基线模型和新的研究方向,有力挑战了自回归范式在语言模型领域的垄断地位,证明了通向通用人工智能(AGI)的技术路径可以是多元的。蓝振忠也表示:“我们将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。自回归不是终点,扩散模型同样可以成为通向AGI的主干道。”

LLaDA-MoE的出现,不仅验证了“MoE放大器”定律在dLLM领域的适用性,为后续10B–100B参数级别的稀疏模型提供了可行方案,更启发社区思考超越next-token prediction的下一代模型范式。虽然AGI仍任重道远,但LLaDA-MoE所展现出的双向、全局建模能力,更接近人类思考的某些模式(如整体规划、多角度推理)。未来,融合自回归、扩散等多种范式的混合模型,可能是实现AGI的更现实发展方向。

参考链接