网易首页 > 网易科技 > 网易科技 > 正文

2025外滩大会:蚂蚁、人大发布首个原生MoE扩散语言模型,将于近期开源

0
分享至

蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。

9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。

(中国人民大学、蚂蚁集团联合发布首个MoE架构扩散模型LLaDA-MoE)

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活1.4B 参数即可实现等效3B稠密模型的性能。

(LLaDA-MoE性能表现)

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens 之间的双向依赖关系。”

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17项基准上平均提升8.4%,领先 LLaDA-1.5达到13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

相关推荐
热点推荐
冯小刚没说错!不沾烟酒不混饭局的陈道明,如今70岁竟变成了这样

冯小刚没说错!不沾烟酒不混饭局的陈道明,如今70岁竟变成了这样

基斯默默
2025-09-12 15:45:09
【提前看好】雨具随身带!北京明天或有雷雨、大风和冰雹

【提前看好】雨具随身带!北京明天或有雷雨、大风和冰雹

大兴这些事儿
2025-09-12 17:01:54
研制成功!我国这一领域取得关键技术突破

研制成功!我国这一领域取得关键技术突破

环球网资讯
2025-09-11 22:15:03
邱毅观点惊人:倘若解放军踏上台湾土地,台军极可能直接缴械投降

邱毅观点惊人:倘若解放军踏上台湾土地,台军极可能直接缴械投降

大道无形我有型
2025-09-11 18:51:24
上厕所时,大便前头干硬,后头软黏,说明什么?看完涨知识了

上厕所时,大便前头干硬,后头软黏,说明什么?看完涨知识了

39健康网
2025-09-10 10:33:03
正式加盟独行侠!你好,盖帽王!曝浓眉哥退出NBA揭幕战

正式加盟独行侠!你好,盖帽王!曝浓眉哥退出NBA揭幕战

篮球实战宝典
2025-09-11 23:46:31
太吓人!共享单车暗中远程锁车,致多人骨折,平台隐瞒真相拒认责

太吓人!共享单车暗中远程锁车,致多人骨折,平台隐瞒真相拒认责

温读史
2025-09-11 16:58:37
那英不忍了!出手便将孟桐过往“隐藏”,令人担心的事还是发生了

那英不忍了!出手便将孟桐过往“隐藏”,令人担心的事还是发生了

聚合大娱
2025-09-11 16:39:34
一夜没了8000亿!iPhone17杀死苹果

一夜没了8000亿!iPhone17杀死苹果

李东阳朋友圈
2025-09-11 14:08:10
32万股民慌了:“长电科技”,错过牛市!

32万股民慌了:“长电科技”,错过牛市!

看财经show
2025-09-12 15:47:09
美参议员:中国曾使用电磁武器融化印度士兵,物理意义上的那种

美参议员:中国曾使用电磁武器融化印度士兵,物理意义上的那种

头条爆料007
2025-09-12 15:42:11
玉米糊再次被关注!医生:常喝玉米糊的人,不用多久,或有4改善

玉米糊再次被关注!医生:常喝玉米糊的人,不用多久,或有4改善

小童历史
2025-09-12 16:35:52
河南2-0北京国安,赛后评分:河南22号排第一

河南2-0北京国安,赛后评分:河南22号排第一

侧身凌空斩
2025-09-12 21:36:08
赚23亿,分红22亿,超250亿利润流向境外股东,双汇在打什么算盘

赚23亿,分红22亿,超250亿利润流向境外股东,双汇在打什么算盘

毒sir财经
2025-09-12 11:38:17
主动退出奥运申办!中国这一招,让西方媒体无话可说

主动退出奥运申办!中国这一招,让西方媒体无话可说

青梅侃史啊
2025-08-18 16:14:26
9月12日俄乌最新:标准的围点打援

9月12日俄乌最新:标准的围点打援

西楼饮月
2025-09-12 18:04:59
罗永浩不费吹灰之力集证据,贾老板请颤抖吧!网友:为锅气菜而战

罗永浩不费吹灰之力集证据,贾老板请颤抖吧!网友:为锅气菜而战

娱乐看阿敞
2025-09-12 11:55:28
曹德旺官司输掉后,怒斥审判长:你私下收了200万,以为我不知道?

曹德旺官司输掉后,怒斥审判长:你私下收了200万,以为我不知道?

萧竹轻语
2025-09-11 16:45:37
“有钱痛苦”张朝阳:身家67亿,61岁仍单身,但有很多90后女友

“有钱痛苦”张朝阳:身家67亿,61岁仍单身,但有很多90后女友

金融圈小大佬
2025-09-12 15:47:36
给团长当8年警卫,退伍时团长却避而不见,临走行李里发现绝密档案

给团长当8年警卫,退伍时团长却避而不见,临走行李里发现绝密档案

萧竹轻语
2025-09-09 19:21:59
2025-09-12 22:35:00

科技要闻

iPhone17预售比去年难抢,苹果官网"崩"了

头条要闻

海底捞"小便门"事件一审宣判:涉案者父母赔偿220万元

头条要闻

海底捞"小便门"事件一审宣判:涉案者父母赔偿220万元

体育要闻

18岁高三黄毛,欧洲杯最狂球员

娱乐要闻

今天生日最爱她的四哥却走了

财经要闻

西贝公布菜品制作过程称罗永浩指责不实

汽车要闻

新增双色外观 2026款腾势N9将于9月17日上市

态度原创

教育
时尚
健康
本地
家居

教育要闻

人大~你的刚子来咯~

韩团女爱豆和内娱男演员,BE感拉满了

内分泌科专家破解身高八大谣言

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

家居要闻

原木风格 温馨舒适氛围

无障碍浏览 进入关怀版
×