网易首页 > 网易号 > 正文 申请入驻

2025外滩大会:蚂蚁、人大发布首个原生MoE扩散语言模型

0
分享至

蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。

9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。

(中国人民大学、蚂蚁集团联合发布首个MoE架构扩散模型LLaDA-MoE)

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B稠密模型的性能。

(LLaDA-MoE性能表现)

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens 之间的双向依赖关系。”

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

据了解,蚂蚁与人大团队攻关 3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总7B、激活1.4B)的MOE架构完成约 20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17项基准上平均提升 8.4%,领先 LLaDA-1.5达到13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

大爱三湘
2026-04-28 19:39:24
辽宁男篮大调整!外援一个不留,11人合同到期,乌戈或留任

辽宁男篮大调整!外援一个不留,11人合同到期,乌戈或留任

体坛瞎白话
2026-05-04 07:00:26
好莱坞风流往事:沃伦体力太好,一天数次求欢,让麦当娜欲罢不能

好莱坞风流往事:沃伦体力太好,一天数次求欢,让麦当娜欲罢不能

钱小刀娱乐
2026-04-15 15:40:52
浙江男子五一带朋友回家喝酒,妻子怒拿菜刀当场翻脸

浙江男子五一带朋友回家喝酒,妻子怒拿菜刀当场翻脸

网络易不易
2026-05-04 13:32:01
今晚打响!中国U17女足vs越南:中国女足全力冲击2连胜提前出线

今晚打响!中国U17女足vs越南:中国女足全力冲击2连胜提前出线

爱奇艺体育
2026-05-04 09:34:06
日本各在野党同声反对修宪

日本各在野党同声反对修宪

参考消息
2026-05-03 15:23:23
今晚起!央视、优酷、腾讯、爱奇艺连上新剧!引爆5月追剧狂潮

今晚起!央视、优酷、腾讯、爱奇艺连上新剧!引爆5月追剧狂潮

阿废冷眼观察所
2026-05-04 15:19:17
又整容了?李嫣疑进行第四次手术,公开术后画面,鼻子嘴巴缠满纱布

又整容了?李嫣疑进行第四次手术,公开术后画面,鼻子嘴巴缠满纱布

八卦王者
2026-05-04 09:19:07
1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

华人星光
2026-04-20 09:59:15
化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

宝哥精彩赛事
2026-05-03 21:36:21
困兽之局:伊朗的窒息时刻

困兽之局:伊朗的窒息时刻

民间胡扯老哥
2026-05-02 11:36:28
王鸥官宣单身:不卖惨的单亲妈妈,打了一手温情牌

王鸥官宣单身:不卖惨的单亲妈妈,打了一手温情牌

东方不败然多多
2026-05-03 19:36:04
辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

做一个合格的吃瓜群众
2026-05-03 09:02:06
知名奶茶品牌荆州将闭店,城区还有一家!

知名奶茶品牌荆州将闭店,城区还有一家!

更荆州
2026-05-04 16:36:01
“你要没有就找去!”王楚钦受伤后一声吼,国乒后勤漏洞藏不住了

“你要没有就找去!”王楚钦受伤后一声吼,国乒后勤漏洞藏不住了

曹老师评球
2026-05-03 20:45:29
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

妍妍教育日记
2026-04-27 09:20:13
抢走王朔,睡遍京圈,定居国外9年的“坏种”徐静蕾,成最终赢家

抢走王朔,睡遍京圈,定居国外9年的“坏种”徐静蕾,成最终赢家

日落于西
2026-04-15 16:04:57
真相大白!王皓连输球原因曝光,王楚钦无奈樊振东机会该给温瑞博

真相大白!王皓连输球原因曝光,王楚钦无奈樊振东机会该给温瑞博

曹说体育
2026-05-03 23:59:25
5月,比亚迪7款新车将上市!

5月,比亚迪7款新车将上市!

新浪财经
2026-05-04 14:29:01
伊朗外交部:美方所提相关议题目前仍在审议中

伊朗外交部:美方所提相关议题目前仍在审议中

国际在线
2026-05-04 16:17:01
2026-05-04 17:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12573文章数 176461关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

美军将出动1.5万军人疏导霍尔木兹船只 伊朗:靠近就打

头条要闻

美军将出动1.5万军人疏导霍尔木兹船只 伊朗:靠近就打

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
本地
数码
公开课
军事航空

艺术要闻

《三国志》手抄墨稿出土!这才是最纯正的晋人书法,比王羲之的字还要风靡

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

联想来酷“W3259PS”31.5英寸显示器发售:4K 240Hz,5499元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版