蚂蚁联手人大发布首个原生MoE扩散语言模型|代码|moe|深度思考模型

蚂蚁联手人大发布首个原生MoE扩散语言模型

2025-09-12 15:27:05　来源: 财经涂鸦

湖南举报

分享至

公司情报专家《财经涂鸦》获悉，9月11日，在2025Inclusion·外滩大会上，蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型（dLLM）“LLaDA-MoE”。

据介绍，这款新模型通过非自回归的掩码扩散机制，首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能（如上下文学习、指令遵循、代码和数学推理等），挑战了“语言模型必须自回归”的主流认知。

实现数据显示，LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型，接近或超越了自回归模型Qwen2.5-3B-Instruct，仅激活1.4B 参数即可实现等效3B稠密模型的性能。

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性，意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。

据中国人民大学高瓴人工智能学院副教授李崇轩介绍，两年过去，AI大模型能力突飞猛进，但存在一些问题始终没有得到本质上的解决。

“究其原因，这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的，从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”

面对这些问题，蚂蚁和人大联合研究团队首次MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示，“我们将于近期向全球完全开源模型权重和自研推理框架，与社区共同推动 AGI新一轮突破。”

据了解，蚂蚁与人大团队攻关3个月，在LLaDA-1.0基础上重写训练代码，并且基于蚂蚁自研分布式框架 ATorch提供EP并行等一系列并行加速技术，基于蚂蚁Ling2.0基础模型的训练数据，在负载均衡、噪声采样漂移等核心难题上取得突破，最终采用7B-A1B（总7B、激活1.4B）的MOE架构完成约20T数据的高效训练。

在蚂蚁自研的统一评测框架下，LLaDA-MoE在HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17项基准上平均提升8.4%，领先LLaDA-1.5达到13.2%，与Qwen2.5-3B-Instruct打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立，为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍，除模型权重外，蚂蚁还将同步开源针对dLLM 行特性深度优化的推理引擎。相比NVIDIA官方fast-dLLM，该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露，蚂蚁将持续投入包括基于dLLM的AGI领域，下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点，扩散模型同样可以成为通向AGI的主干道。”蓝振忠如是说。

作者：苏打

编辑：tuya

出品：财经涂鸦（ID：caijingtuya）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.