网易首页 > 网易号 > 正文 申请入驻

上海AI Lab混合扩散语言模型SDAR:突破6600 tgs开源扩散语言模型

0
分享至

来源:市场资讯

(来源:机器之心Pro)


程爽,上海人工智能实验室和浙江大学联培博士生一年级;卞一涵,美国马里兰大学硕士生二年级,上海人工智能实验室实习生;刘大卫,上海人工智能实验室和上海交通大学联培博士生一年级;齐弼卿,上海人工智能实验室研究员(指导老师)

大模型推理速度慢、成本高,已成为限制其广泛应用的核心瓶颈。其根源在于自回归(AR)模型「逐字生成」的串行模式。

近日,上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。

该方法通过「训练-推理解耦」的巧妙设计,无缝融合了AR 模型的高性能与扩散模型的并行推理优势,能以极低成本将任意AR 模型「改造」为并行解码模型。


实验证明,SDAR 不仅在多个基准上与原版AR 模型性能持平甚至超越,还能带来数倍的真实推理加速。更令人惊喜的是,SDAR 在复杂的科学推理任务上展现出巨大潜力。在与采用相同配置训练的 AR 基线模型进行公平对比时,SDAR 在 ChemBench 等基准上最高取得了12.3个百分点的性能优势。

在科学推理能力上,SDAR 实现了对 AR 基线模型的超越。与使用完全相同配置训练的 AR 版本进行公平对比,SDAR-30B-A3B-Sci 模型在 ChemBench(化学)和 GPQA-diamond(谷歌研究员水平科学问答)两大基准上,得分分别从 60.5 提升至 72.8 和从 61.2 提升至 66.7,取得了 12.3 和 5.5 个百分点的显著优势。这一结果有力地表明,其局部双向注意力机制对于精准理解化学式等结构化知识至关重要。

目前,该团队已全面开源从1.7B 到 30B的全系列SDAR 模型、高效推理引擎及迄今最强的开源扩散类推理模型 SDAR-30B-A3B-Sci。

大模型推理的「速度困境」:

自回归与扩散模型的两难抉择

GPT 系列模型问世以来,自回归(Autoregressive, AR)范式便成为主流。它通过「从左到右、逐词预测」的方式生成文本,完美契合了自然语言的顺序结构,这也是AR 模型效果出众的根本原因。 然而,这种严格的顺序依赖,也带来了两大与生俱来的挑战:

为打破僵局,研究者们将目光投向了潜力巨大的扩散模型(Diffusion Models)。其中的掩码扩散语言模型(MDLM)将整个序列视为一个整体,通过「从模糊到清晰」的迭代去噪方式并行生成,理论上能一举解决AR 模型的速度瓶颈。

但实践中,MDLM 面临两大难题:

「混合模型」虽然尝试结合二者,块内并行、块间自回归,但其特殊的训练目标函数依赖复杂的注意力掩码,导致训练开销几乎翻倍,令人望而却步。

另辟蹊径:

SDAR 如何通过「训练-推理解耦」实现双赢

面对这一困境,上海AI 实验室的研究团队重新审视问题本质,提出了一个颠覆性的思路:为什么要在同一个阶段解决所有问题?SDAR 范式的核心就是「解耦」(Decoupling):

这个过程,可以理解为:先培养出一位精通单字书法的大家(强大的AR 模型),然后只用极短时间教会他「连笔挥毫」(块状并行生成)的技巧。其原有的书法功底(模型性能)丝毫未损,但创作速度(推理效率)却得到了质的飞跃。

通过这种「训练-适配」分离的设计,SDAR 完美保留了 AR 模型的全部优点——强大的性能、高效的优化、KV 缓存、可变长度生成等,同时精准地「嫁接」了扩散模型最核心的优势——并行解码带来的推理加速。

实验见真章:

性能、速度与成本的规模化验证

为了验证SDAR 的实际效果,研究团队进行了一系列严谨的实验,旨在回答三个核心问题:SDAR 性能与同级AR 模型相比如何?并行加速效果如何?改造现有AR 模型的成本高吗?

关键发现:

性能不妥协:与 AR 基线全面对标

研究人员基于Qwen3 系列1.7B、4B、8B-dense 和 30B-A3B MoE 模型,通过「继续预训练 (CPT) + 指令微调 (SFT)」的两阶段流程,训练出SDAR-Chat 系列模型,并与采用完全相同流程训练的AR-Chat 基线进行全面对比。


图注:SDAR-Chat 和 AR-Chat 的严格比较

如上表所示,SDAR 在规模化扩展时,性能与AR 模型同步增长。在30B 规模下,SDAR-Chat 在18 个基准中的 11 个上持平或超越了其AR 版本,证明了该范式的有效性与可扩展性。

成本极低:高效的「即插即用」式适配

与需要 580B token 进行从头训练的Dream 等工作相比,SDAR 仅用 50B token的开源数据进行继续预训练,就能达到与AR 基线相当的性能。这证明了「解耦」思想的正确性:强大的 AR 预训练已为模型打下坚实基础,后续的块状扩散适配仅是一个短暂的「对齐目标」过程。这意味着社区能以极低的成本,将任何开源AR 模型轻松转换为高效的SDAR 模型

加速显著:真实部署中的效率飞跃

该研究通过「有效每步生成 Token 数」(TPF)这一指标来衡量理论加速。TPF 为 1 即为标准AR 模型


图注:SDAR 理论加速比

上图揭示了SDAR 的缩放定律:

在工业级推理引擎LMDeploy 上的实测结果更为直观。在对延迟敏感的小批量场景下,SDAR-8B-chat 在单张H200 上实现了相较于AR 版本 2.3 倍的实际加速,峰值吞吐量高达 6599 token/s,为实时交互应用提供了巨大优势。

解锁新潜能:

当 SDAR 遇上顶尖科学难题

除了效率提升,一个自然而然的问题是:SDAR 独特的生成机制是否会影响其复杂的推理能力?为此,研究人员基于Qwen3-30B-A3B,专门打造了一款科学推理模型 SDAR-30B-A3B-Sci,并与严格对齐训练流程的AR 版本进行对比,结果令人振奋。

关键发现:

结果令人惊喜:


图注:AR-30B-A3B-Sci and SDAR-30B-A3B-Sci 性能比较


图注:测试时扩展实验

这些结果证明,SDAR 不仅是一个「加速器」,更是一个「增强器」,为解决复杂推理任务提供了一个性能与效率俱佳的新范式。

总结与展望

SDAR 为大模型领域提供了一个强大而灵活的新工具。该研究的核心贡献可归纳为以下几点:

SDAR 的出现,不仅能让现有的大模型「飞」起来,降低应用门槛,也为探索更高性能、更高效的下一代AI 推理范式打开了一扇新的大门。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方愤怒升级!24小时内两次“奉示约见”,新闻联播3分钟警告高市早苗......最新:日本还想发展核潜艇!

中方愤怒升级!24小时内两次“奉示约见”,新闻联播3分钟警告高市早苗......最新:日本还想发展核潜艇!

新民周刊
2025-11-15 18:35:44
狗主人真实身份遭曝光:她带人砸窗破门确实有底气,还真管不了她

狗主人真实身份遭曝光:她带人砸窗破门确实有底气,还真管不了她

汉史趣闻
2025-11-16 08:12:31
高市还在搞事?日本同时被四国痛批,一盟友划清界限!

高市还在搞事?日本同时被四国痛批,一盟友划清界限!

国是直通车
2025-11-15 11:10:05
卓伟爆了一个新瓜!

卓伟爆了一个新瓜!

八卦疯叔
2025-11-15 10:16:28
因菜地纠纷引发冲突,男子遭殴打后持刀刺死亲戚父子二人,一审被判死刑,法院:带有明显泄愤动机

因菜地纠纷引发冲突,男子遭殴打后持刀刺死亲戚父子二人,一审被判死刑,法院:带有明显泄愤动机

大风新闻
2025-11-16 12:24:03
金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

萌神木木
2025-11-15 19:10:03
宁夏银川16岁女孩失联5天,家属称孩子没带身份证,带的手机没有电话卡,警方介入

宁夏银川16岁女孩失联5天,家属称孩子没带身份证,带的手机没有电话卡,警方介入

极目新闻
2025-11-16 13:15:10
前男友分手四月就结婚,女子破防大哭,现任被扒很漂亮,难怪破防

前男友分手四月就结婚,女子破防大哭,现任被扒很漂亮,难怪破防

揽星河的笔记
2025-11-14 17:22:32
山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

慢半拍sir
2025-11-15 15:15:14
太及时了!防止大规模返乡意义重大,农民工“回家躺平”行不通

太及时了!防止大规模返乡意义重大,农民工“回家躺平”行不通

火山诗话
2025-11-16 07:49:52
教育部发布2025年第4号留学预警:建议中国公民谨慎规划赴日留学安排

教育部发布2025年第4号留学预警:建议中国公民谨慎规划赴日留学安排

界面新闻
2025-11-16 13:03:33
确定!不打了,再见NBA,你好CBA,24岁状元之子正式加盟中国联赛

确定!不打了,再见NBA,你好CBA,24岁状元之子正式加盟中国联赛

球童无忌
2025-11-16 12:32:07
东莞一平台自曝出现挤兑,所签协议刻意遮掩“投资”属性

东莞一平台自曝出现挤兑,所签协议刻意遮掩“投资”属性

新浪财经
2025-11-13 20:35:37
局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

云鹏叙事
2025-11-15 13:09:29
泰王来了,他在破除一个魔咒

泰王来了,他在破除一个魔咒

虚声
2025-11-15 19:59:17
狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

吭哧有力
2025-11-15 18:42:28
13天12板“大牛股”,可能申请停牌核查!前三季度净利大跌146%

13天12板“大牛股”,可能申请停牌核查!前三季度净利大跌146%

每日经济新闻
2025-11-13 19:40:42
交管12123重大更新!违章当天直达通知,4次免罚正确打开方式速藏

交管12123重大更新!违章当天直达通知,4次免罚正确打开方式速藏

阿芒娱乐说
2025-11-16 10:51:47
中方多个用词罕见!高市的“存亡危机”不在台海

中方多个用词罕见!高市的“存亡危机”不在台海

国是直通车
2025-11-16 10:59:02
高市早苗彻底践踏“村山谈话”!31年前就有迹象

高市早苗彻底践踏“村山谈话”!31年前就有迹象

看看新闻Knews
2025-11-15 13:07:20
2025-11-16 16:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1394520文章数 4517关注度
往期回顾 全部

科技要闻

谁在炒作全固态电池?

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

涉三宗罪 释永信被批准逮捕

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

数码
健康
手机
房产
亲子

数码要闻

逆势而行?Valve新款Steam Machine官宣,8GB显存配置引发争议

血液科专家揭秘白血病七大误区

手机要闻

有用户反馈苹果iPhone 17 Pro Max用湿巾清洁后机身涂层被擦除

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

亲子要闻

大脑发育超前的娃,有3个表现藏不住!第2个最容易被家长忽略

无障碍浏览 进入关怀版