网易首页 > 网易号 > 正文 申请入驻

2025外滩大会:蚂蚁、人大发布首个原生MoE扩散语言模型

0
分享至

蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。

9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。



(中国人民大学、蚂蚁集团联合发布首个MoE架构扩散模型LLaDA-MoE)

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B稠密模型的性能。



(LLaDA-MoE性能表现)

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens 之间的双向依赖关系。”

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

据了解,蚂蚁与人大团队攻关 3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总7B、激活1.4B)的MOE架构完成约 20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17项基准上平均提升 8.4%,领先 LLaDA-1.5达到13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重新开征农业税,激发农民责任感和荣誉感?这是要把农民逼上绝路

重新开征农业税,激发农民责任感和荣誉感?这是要把农民逼上绝路

刚哥说法365
2025-09-24 16:33:59
澳网落下帷幕!诞生7个赢家,以及5个输家,阿卡、德约位列其中

澳网落下帷幕!诞生7个赢家,以及5个输家,阿卡、德约位列其中

小火箭爱体育
2026-02-01 20:00:51
江渭清复出拒绝担任省委书记,副总理纪登奎:这是通知,不是商量

江渭清复出拒绝担任省委书记,副总理纪登奎:这是通知,不是商量

老脸科普君
2026-01-14 17:28:57
华人换汇30万, 直接被抓! 回国刚落地机场, 就被带走...

华人换汇30万, 直接被抓! 回国刚落地机场, 就被带走...

澳微Daily
2026-02-01 15:06:04
打爆文班亚马!进攻联盟第一!2026年NBA最强黑马

打爆文班亚马!进攻联盟第一!2026年NBA最强黑马

篮球教学论坛
2026-02-01 18:44:40
全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

阿器谈史
2026-01-31 22:54:03
亲手拆散一切:国王将四大核心全摆上货架,这次重建不留退路!

亲手拆散一切:国王将四大核心全摆上货架,这次重建不留退路!

体育闲话说
2026-02-01 18:51:42
速心丸得备!本轮英超出现三场让二追二剧情,但结局各不相同

速心丸得备!本轮英超出现三场让二追二剧情,但结局各不相同

懂球帝
2026-02-02 03:06:21
媒体人传来消息!王钰栋加盟欧洲豪门悬念揭晓 徐彬外租下家曝光

媒体人传来消息!王钰栋加盟欧洲豪门悬念揭晓 徐彬外租下家曝光

侃球熊弟
2026-02-01 00:06:51
卫星图像显示:伊朗两处受损核设施有新动作

卫星图像显示:伊朗两处受损核设施有新动作

观察者网
2026-02-01 17:30:47
58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

锋哥与八卦哥
2026-01-25 13:26:51
刘强东小妹近照曝光,一头长发打扮时髦,妈妈干活她在院里溜达!

刘强东小妹近照曝光,一头长发打扮时髦,妈妈干活她在院里溜达!

古希腊掌管松饼的神
2026-01-31 17:00:17
今年丑苹果为何难卖了?云南本地朋友揭露:4个原因,很无奈

今年丑苹果为何难卖了?云南本地朋友揭露:4个原因,很无奈

餐饮新纪元
2025-12-16 07:14:11
事大了!大陆突然把10人“扔”给金门,赖清德这就慌了?

事大了!大陆突然把10人“扔”给金门,赖清德这就慌了?

菊宝视界
2025-12-09 08:00:03
太惨了!广州外卖员猝死,父母兄长皆亡仅剩独苗:麻绳专挑细处断

太惨了!广州外卖员猝死,父母兄长皆亡仅剩独苗:麻绳专挑细处断

没有偏旁的常庆
2026-02-01 07:55:05
张怡宁真翻车了?嫁大20岁富商16年后,现状让人意外!

张怡宁真翻车了?嫁大20岁富商16年后,现状让人意外!

TVB的四小花
2026-01-31 06:45:00
亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

千秋文化
2025-12-03 10:05:36
英超最新积分战报:曼联奇迹绝杀,维拉爆冷,曼城2-2热刺

英超最新积分战报:曼联奇迹绝杀,维拉爆冷,曼城2-2热刺

足球狗说
2026-02-02 02:30:49
庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

沧海一书客
2025-12-25 19:27:44
破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

乐悠悠娱乐
2026-01-22 08:57:21
2026-02-02 04:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

家居
健康
教育
房产
数码

家居要闻

蓝调空舍 自由与个性

耳石症分类型,症状大不同

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

无障碍浏览 进入关怀版