网易首页 > 网易科技 > 网易科技 > 正文

2025外滩大会:蚂蚁、人大发布首个原生MoE扩散语言模型,将于近期开源

0
分享至

蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。

9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。

(中国人民大学、蚂蚁集团联合发布首个MoE架构扩散模型LLaDA-MoE)

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活1.4B 参数即可实现等效3B稠密模型的性能。

(LLaDA-MoE性能表现)

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens 之间的双向依赖关系。”

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17项基准上平均提升8.4%,领先 LLaDA-1.5达到13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

相关推荐
热点推荐
昨晚红毯:欧阳娜娜真空上阵、赵露思腋下黑又脏、刘诗诗咋变成这

昨晚红毯:欧阳娜娜真空上阵、赵露思腋下黑又脏、刘诗诗咋变成这

一娱三分地
2026-05-30 13:00:38
【微特稿】白宫公布特朗普年度体检报告:增重超6公斤

【微特稿】白宫公布特朗普年度体检报告:增重超6公斤

新华社
2026-05-30 19:54:05
法网冷门夜!2大前八种子出局 卫冕冠军被逆转 中国金花独苗冲8强

法网冷门夜!2大前八种子出局 卫冕冠军被逆转 中国金花独苗冲8强

侃球熊弟
2026-05-31 02:30:28
家属已报案!“23岁妹妹跟陌生女子出游后失联”,中领馆回应

家属已报案!“23岁妹妹跟陌生女子出游后失联”,中领馆回应

南方都市报
2026-05-30 10:49:39
初一男生校门口遭群殴,听力受损或失聪,3打人少年被行政处罚;当地教育局:偶发事件,不存在欺凌

初一男生校门口遭群殴,听力受损或失聪,3打人少年被行政处罚;当地教育局:偶发事件,不存在欺凌

大风新闻
2026-05-30 18:11:07
烧钱换冠军?阿森纳五年净亏7.69亿,终圆欧冠决赛梦

烧钱换冠军?阿森纳五年净亏7.69亿,终圆欧冠决赛梦

林子说事
2026-05-31 00:52:48
突发!硬碰硬!伊朗导弹突袭美军基地,美军多人受伤、战机损毁

突发!硬碰硬!伊朗导弹突袭美军基地,美军多人受伤、战机损毁

咣当地球
2026-05-31 00:15:11
法布雷加斯再捅阿森纳一刀!强挖现象级天才,当年他就是这么走的

法布雷加斯再捅阿森纳一刀!强挖现象级天才,当年他就是这么走的

澜归序
2026-05-30 07:40:01
60岁伊丽莎白穿珊瑚比基尼,腹肌惊人

60岁伊丽莎白穿珊瑚比基尼,腹肌惊人

影视情报室
2026-05-31 00:41:50
随着北京国安3-2,成都蓉城1-0,青岛海牛2-3,中超最新积分榜出炉

随着北京国安3-2,成都蓉城1-0,青岛海牛2-3,中超最新积分榜出炉

侧身凌空斩
2026-05-30 22:12:48
狗交配时屁股为什么会连在一起?是母狗不让,还是公狗不想?

狗交配时屁股为什么会连在一起?是母狗不让,还是公狗不想?

宇宙时空
2026-05-25 12:57:36
电车,是时候交养路费了

电车,是时候交养路费了

第一财经资讯
2026-05-29 10:11:25
陈文茜公开评价说马英九对台湾对国民党的危害,十倍百倍于李登辉

陈文茜公开评价说马英九对台湾对国民党的危害,十倍百倍于李登辉

安安说
2026-05-30 12:25:49
中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

安安说
2026-05-29 10:57:26
中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

铁锤简科
2026-05-30 12:42:24
《鸡毛信》中海娃扮演者蔡元元去世,享年84岁

《鸡毛信》中海娃扮演者蔡元元去世,享年84岁

都市快报橙柿互动
2026-05-30 17:39:43
耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

小小河
2026-05-29 22:41:27
英国公布的圆明园被毁前照片,美如仙境,引发世界关注

英国公布的圆明园被毁前照片,美如仙境,引发世界关注

贱议你读史
2026-05-23 15:23:34
万亿巨头中际旭创,严正声明

万亿巨头中际旭创,严正声明

中国基金报
2026-05-30 19:31:33
他是致使台湾难以收复的关键人物,若不是他台湾或许早已解放

他是致使台湾难以收复的关键人物,若不是他台湾或许早已解放

老范谈史
2026-04-30 03:59:22
2026-05-31 03:12:49

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

家居
数码
房产
艺术
健康

家居要闻

云栖 舒展如流云

数码要闻

华擎RX 9070 XT太极十周年版曝光:黑白金配色首次亮相

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

艺术要闻

非洲超级地标!全球最大足球场,持续推进!

尝试干细胞疗法如何避免踩坑?

无障碍浏览 进入关怀版
×