网易首页 > 网易科技 > 互联网 > 正文

蚂蚁、人大发布原生MoE扩散语言模型,将于近期开源

0
分享至

9月12日消息,在外滩大会上,蚂蚁集团与中国人民大学联合发布原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等)。

蚂蚁方面公布的数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活1.4B 参数即可实现等效3B稠密模型的性能。

蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠表示,“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens 之间的双向依赖关系。”

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17项基准上平均提升8.4%,领先 LLaDA-1.5达到13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

相关推荐
热点推荐
癌症去世的人越来越多?医生反复提醒:宁可打打牌,也别做这5事

癌症去世的人越来越多?医生反复提醒:宁可打打牌,也别做这5事

蜉蝣说
2025-12-19 22:01:31
我外交部突然发出警告,如果外媒消息属实,中日事态将会相当严重

我外交部突然发出警告,如果外媒消息属实,中日事态将会相当严重

影孖看世界
2025-12-19 19:14:04
宁波小洛熙尸检报告披露,大量内幕远超想象,法医一句话信息量大

宁波小洛熙尸检报告披露,大量内幕远超想象,法医一句话信息量大

博士观察
2025-12-20 22:59:58
拔“刺”高手,伊萨克对热刺打入7球为英超生涯最多

拔“刺”高手,伊萨克对热刺打入7球为英超生涯最多

懂球帝
2025-12-21 03:04:14
罗素:愚蠢的四大特征

罗素:愚蠢的四大特征

尚曦读史
2025-12-19 09:55:05
除了战败认输,已经无路可走?洪森军队遭重创:柬埔寨或爆发内乱

除了战败认输,已经无路可走?洪森军队遭重创:柬埔寨或爆发内乱

策前论
2025-12-20 23:12:53
柬埔寨电诈分子上演大逃亡,场面震撼!

柬埔寨电诈分子上演大逃亡,场面震撼!

环球热点快评
2025-12-20 07:53:18
“邪修大法”做家务就是快!一分钱不花,家里就窗明几净~

“邪修大法”做家务就是快!一分钱不花,家里就窗明几净~

装修秀
2025-12-19 11:30:03
马云预言或将应验了?未来5年,比开药店还要暴利的4个方向

马云预言或将应验了?未来5年,比开药店还要暴利的4个方向

百态人间
2025-12-20 05:25:03
向高市早苗示好不到24小时,张本底细被扒,父母的黑历史也被翻出

向高市早苗示好不到24小时,张本底细被扒,父母的黑历史也被翻出

天天热点见闻
2025-12-20 06:08:30
民进党支持者竟造谣“嫌犯是大陆籍” 蒋万安驳斥

民进党支持者竟造谣“嫌犯是大陆籍” 蒋万安驳斥

看看新闻Knews
2025-12-21 00:07:04
55岁钟丽缇中年发福太多!胖到180斤 胸大腚圆 满身肥肉穿吊带

55岁钟丽缇中年发福太多!胖到180斤 胸大腚圆 满身肥肉穿吊带

广西阿妹香香
2025-12-20 15:58:58
上海一对情侣恋爱时男方说“我养你”,分手后女方以此为证,拒绝返还40余万元!测谎实验后,法院判了

上海一对情侣恋爱时男方说“我养你”,分手后女方以此为证,拒绝返还40余万元!测谎实验后,法院判了

都市快报橙柿互动
2025-12-20 09:35:12
克林顿与爱泼斯坦案受害者共浴照片披露

克林顿与爱泼斯坦案受害者共浴照片披露

扬子晚报
2025-12-20 11:50:57
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
同仁堂集团就南极磷虾油事件致歉:全面开展品牌清理行动

同仁堂集团就南极磷虾油事件致歉:全面开展品牌清理行动

界面新闻
2025-12-20 09:03:27
北京阿姨20年守茅台股票:90万本金,分红326万,成本归零!

北京阿姨20年守茅台股票:90万本金,分红326万,成本归零!

趣文说娱
2025-12-20 18:29:20
欧尔班抨击欧盟向乌提供贷款,波兰外长向欧尔班颁发列宁勋章

欧尔班抨击欧盟向乌提供贷款,波兰外长向欧尔班颁发列宁勋章

山河路口
2025-12-20 19:17:58
欧盟动用俄资产的方案未获通过

欧盟动用俄资产的方案未获通过

环球时报国际
2025-12-20 09:31:53
转发野三坡隧道事故视频被要求删除,还有网友称发生了爆炸

转发野三坡隧道事故视频被要求删除,还有网友称发生了爆炸

映射生活的身影
2025-12-20 19:18:13
2025-12-21 03:44:49

科技要闻

许四清:具身智能的"ChatGPT时刻"还未到来

头条要闻

台北致4人身亡嫌犯被指是"大陆籍" 蒋万安回应

头条要闻

台北致4人身亡嫌犯被指是"大陆籍" 蒋万安回应

体育要闻

我开了20年大巴,现在是一名西甲主帅

娱乐要闻

2026央视跨年晚会阵容曝光,豪华阵仗

财经要闻

求解“地方财政困难”

汽车要闻

岚图推进L3量产测试 已完成11万公里实际道路验证

态度原创

时尚
家居
手机
教育
健康

最显腿细的骑士靴,谁穿谁是腿精

家居要闻

高端私宅 理想隐居圣地

手机要闻

vivo X200T再曝,天玑 9400+芯片加持

教育要闻

别逼孩子死磕高二数学了!我用3个“懒方法”,让倒数娃冲进前20

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版
×