网易首页 > 网易号 > 正文 申请入驻

蚂蚁联手人大发布首个原生MoE扩散语言模型

0
分享至


公司情报专家《财经涂鸦》获悉,9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct,仅激活1.4B 参数即可实现等效3B稠密模型的性能。

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。

据中国人民大学高瓴人工智能学院副教授李崇轩介绍,两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。

“究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”

面对这些问题,蚂蚁和人大联合研究团队首次MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI新一轮突破。”

据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE在HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17项基准上平均提升8.4%,领先LLaDA-1.5达到13.2%,与Qwen2.5-3B-Instruct打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对dLLM 行特性深度优化的推理引擎。相比NVIDIA官方fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向AGI的主干道。”蓝振忠如是说。

作者:苏打

编辑:tuya

出品:财经涂鸦(ID:caijingtuya)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
弃用美元,改用人民币结算!美国31万亿美元外债还能撑多久?

弃用美元,改用人民币结算!美国31万亿美元外债还能撑多久?

窥史
2025-09-14 15:06:11
3-4惜败!痛失澳门站女单冠军,王曼昱赛后采访如此评价孙颖莎!

3-4惜败!痛失澳门站女单冠军,王曼昱赛后采访如此评价孙颖莎!

田先生篮球
2025-09-14 20:05:07
国民党郑丽文狂言:两岸开战,大陆将被拖垮30年,是虚张声势还是不安?

国民党郑丽文狂言:两岸开战,大陆将被拖垮30年,是虚张声势还是不安?

爱看剧的阿峰
2025-08-29 05:37:37
100%清零985!湖南偏远小县城中学凭什么逆天叫板长沙四大名校

100%清零985!湖南偏远小县城中学凭什么逆天叫板长沙四大名校

解说阿洎
2025-09-14 13:19:50
王辰院士与董小姐、武大校长与杨某某...NPD相遇,越牛越易翻车?

王辰院士与董小姐、武大校长与杨某某...NPD相遇,越牛越易翻车?

精准心理学何日辉
2025-09-14 12:00:32
“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,现如今怎样

“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,现如今怎样

博览历史
2025-09-13 21:50:07
屁股大的女生穿瑜伽裤才好看,收腹提臀效果好,瞬间肚腩小一号

屁股大的女生穿瑜伽裤才好看,收腹提臀效果好,瞬间肚腩小一号

小乔古装汉服
2025-09-13 19:20:07
美犹他州州长称刺杀柯克嫌疑人受“左翼思想灌输”

美犹他州州长称刺杀柯克嫌疑人受“左翼思想灌输”

每日经济新闻
2025-09-14 08:33:16
美国恢复援乌?万斯暗示:让出顿巴斯、放弃安全保障就能“和平”

美国恢复援乌?万斯暗示:让出顿巴斯、放弃安全保障就能“和平”

鹰眼Defence
2025-09-12 18:24:27
查理.柯克遗孀,在丈夫遇刺后首次公开演讲(全文)

查理.柯克遗孀,在丈夫遇刺后首次公开演讲(全文)

南文视界
2025-09-13 17:33:45
65岁以上老人注意!新增两项免费福利,国家买单更无忧!一起来看

65岁以上老人注意!新增两项免费福利,国家买单更无忧!一起来看

巷子里的历史
2025-09-14 10:11:40
中国双星闪耀西班牙!黄潜6-1莱万特 ,刘凯源破门+邝兆镭双响

中国双星闪耀西班牙!黄潜6-1莱万特 ,刘凯源破门+邝兆镭双响

小金体坛大视野
2025-09-14 11:05:55
日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

红梦史说
2025-09-14 06:40:02
令韩国人震惊的中国酸奶世界…

令韩国人震惊的中国酸奶世界…

奋斗在韩国
2025-09-13 19:06:56
楼下夫妻总蹭我充电桩,我拉闸后出国旅游,半个月后物业打来电话

楼下夫妻总蹭我充电桩,我拉闸后出国旅游,半个月后物业打来电话

凯裕说故事
2025-09-08 16:04:30
在发生关系时,女性最期待听到的几句“下流话”会是什么?

在发生关系时,女性最期待听到的几句“下流话”会是什么?

周哥一影视
2025-09-10 02:33:38
西贝直播间翻车现场:青椒炒肉丝变青椒焖肉,用电磁炉颠勺,奇葩

西贝直播间翻车现场:青椒炒肉丝变青椒焖肉,用电磁炉颠勺,奇葩

谈史论天地
2025-09-14 17:13:23
谈判还没开始,美方先出手了,中方见招拆招,特朗普收到两道反制

谈判还没开始,美方先出手了,中方见招拆招,特朗普收到两道反制

幽棠的趣式
2025-09-14 12:08:12
韩德君全运会出战成谜;上海队不看好怀特塞德,双方几乎不会签约

韩德君全运会出战成谜;上海队不看好怀特塞德,双方几乎不会签约

孤影来客
2025-09-14 23:41:58
“国家一级演员”何冰的消失,不仅是娱乐圈的悲哀,更是损失!

“国家一级演员”何冰的消失,不仅是娱乐圈的悲哀,更是损失!

素衣读史
2025-08-20 17:55:59
2025-09-15 05:28:49
财经涂鸦 incentive-icons
财经涂鸦
公司情报专家
4559文章数 10094关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

健康
手机
本地
数码
公开课

内分泌科专家破解身高八大谣言

手机要闻

手机周报份额再次出炉:小米逆袭上位,iPhone蓄势待发!

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

数码要闻

古尔曼:苹果首款智能眼镜产品无显示屏,预计12至16个月内推出

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版