网易首页 > 网易号 > 正文 申请入驻

蚂蚁联手人大发布首个原生MoE扩散语言模型

0
分享至

公司情报专家《财经涂鸦》获悉,9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct,仅激活1.4B 参数即可实现等效3B稠密模型的性能。

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。

据中国人民大学高瓴人工智能学院副教授李崇轩介绍,两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。

“究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”

面对这些问题,蚂蚁和人大联合研究团队首次MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI新一轮突破。”

据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE在HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17项基准上平均提升8.4%,领先LLaDA-1.5达到13.2%,与Qwen2.5-3B-Instruct打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对dLLM 行特性深度优化的推理引擎。相比NVIDIA官方fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向AGI的主干道。”蓝振忠如是说。

作者:苏打

编辑:tuya

出品:财经涂鸦(ID:caijingtuya)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本可能与中国开战?日专家:与中国发生冲突,最长只能坚持一周

日本可能与中国开战?日专家:与中国发生冲突,最长只能坚持一周

泠泠说史
2026-03-16 15:29:34
《浪姐7》首播:阚清子李小冉晒人脉,唯独她的朋友不大给面子

《浪姐7》首播:阚清子李小冉晒人脉,唯独她的朋友不大给面子

椰黄娱乐
2026-03-28 16:07:25
为什么现在越来越多的成人确诊 ADHD 了?

为什么现在越来越多的成人确诊 ADHD 了?

尹烨
2026-03-30 07:34:14
张雪峰去世事件升级!网传有健身房的跑步机空无一人,恐慌加剧…

张雪峰去世事件升级!网传有健身房的跑步机空无一人,恐慌加剧…

火山詩话
2026-03-27 17:20:58
喜事接不停!偏财追着跑,2026年另辟蹊径,不走寻常路的3生肖!

喜事接不停!偏财追着跑,2026年另辟蹊径,不走寻常路的3生肖!

毅谈生肖
2026-03-30 10:39:14
男性晨起3个异常,肝脏或已烂如蜂窝,占一个,尽早查肝CT

男性晨起3个异常,肝脏或已烂如蜂窝,占一个,尽早查肝CT

垚垚分享健康
2026-03-22 13:00:11
热播剧《逐玉》“登上”泰国征兵海报,泰国皇家陆军新媒体部负责人:我也很喜欢这部剧

热播剧《逐玉》“登上”泰国征兵海报,泰国皇家陆军新媒体部负责人:我也很喜欢这部剧

红星新闻
2026-03-27 13:49:13
《隐身的名字》结局:柏庶生母被杀,刘潇然身份曝光,葛文君死刑

《隐身的名字》结局:柏庶生母被杀,刘潇然身份曝光,葛文君死刑

老塕是个手艺人
2026-03-30 05:35:00
1981年生!河南工学院梁静副校长拟任正职,曾在郑州大学任教多年

1981年生!河南工学院梁静副校长拟任正职,曾在郑州大学任教多年

百家论大学
2026-03-30 08:00:11
首次在中国下单!江苏船厂拿下8艘新船

首次在中国下单!江苏船厂拿下8艘新船

龙de船人
2026-03-29 20:12:42
梁咏琪和双胞胎弟弟一起过50岁生日,晒两人童年和50岁对比照

梁咏琪和双胞胎弟弟一起过50岁生日,晒两人童年和50岁对比照

观察鉴娱
2026-03-29 09:33:02
这一夜,广东男篮的体面,终于被张皓嘉撕了个粉碎

这一夜,广东男篮的体面,终于被张皓嘉撕了个粉碎

小僫搞笑解说
2026-03-30 09:08:33
郭麒麟白嫖网红外卖媛!

郭麒麟白嫖网红外卖媛!

八卦疯叔
2026-03-28 09:58:03
修旧如旧,网友为E3预警机定制修复方案

修旧如旧,网友为E3预警机定制修复方案

三叔的装备空间
2026-03-29 20:57:33
夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

精彩分享快乐
2025-11-20 00:05:03
开拓者123-88横扫奇才!杨瀚森罚球命中100%,6+4,与克林根同分

开拓者123-88横扫奇才!杨瀚森罚球命中100%,6+4,与克林根同分

小火箭爱体育
2026-03-30 08:41:41
不服就干!比利时打响反华第一枪,通告全球,断的就是中方退路

不服就干!比利时打响反华第一枪,通告全球,断的就是中方退路

梦在深巷aqa
2026-03-29 23:33:33
八大军区司令员对调时,八位司令员的年龄分别是多大?谁最年轻?

八大军区司令员对调时,八位司令员的年龄分别是多大?谁最年轻?

微史纪
2026-03-29 13:09:36
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
8万吨大米开道,百万桶石油垫后,中俄兵分两路,决不让古巴倒下

8万吨大米开道,百万桶石油垫后,中俄兵分两路,决不让古巴倒下

似水流年忘我
2026-03-29 17:08:58
2026-03-30 11:23:00
财经涂鸦 incentive-icons
财经涂鸦
公司情报专家
4805文章数 8852关注度
往期回顾 全部

科技要闻

DeepSeek“崩了”一夜,仍无法正常使用

头条要闻

单依纯发文道歉"我的错误与任何人无关" 李荣浩回应

头条要闻

单依纯发文道歉"我的错误与任何人无关" 李荣浩回应

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

艺术
房产
手机
时尚
旅游

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

手机要闻

小米澎湃OS3密码App上新:首次登录自动抓取存储,支持跨设备同步

来到1980的周也,好毛利兰

旅游要闻

多地以花为媒创新玩法激活“春日经济” 沉浸式“赏花打卡”点亮文旅新意

无障碍浏览 进入关怀版