网易首页 > 网易号 > 正文 申请入驻

上海AI Lab混合扩散语言模型SDAR:突破6600 tgs开源扩散语言模型

0
分享至



程爽,上海人工智能实验室和浙江大学联培博士生一年级;卞一涵,美国马里兰大学硕士生二年级,上海人工智能实验室实习生;刘大卫,上海人工智能实验室和上海交通大学联培博士生一年级;齐弼卿,上海人工智能实验室研究员(指导老师)

大模型推理速度慢、成本高,已成为限制其广泛应用的核心瓶颈。其根源在于自回归(AR)模型「逐字生成」的串行模式。

近日,上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。

该方法通过「训练-推理解耦」的巧妙设计,无缝融合了AR 模型的高性能与扩散模型的并行推理优势,能以极低成本将任意AR 模型「改造」为并行解码模型。



  • 论文标题:SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
  • 论文链接:https://arxiv.org/abs/2510.06303
  • 代码地址:https://github.com/JetAstra/SDAR
  • 推理引擎:https://github.com/InternLM/lmdeploy
  • 模型地址:https://huggingface.co/collections/JetLM/sdar

实验证明,SDAR 不仅在多个基准上与原版AR 模型性能持平甚至超越,还能带来数倍的真实推理加速。更令人惊喜的是,SDAR 在复杂的科学推理任务上展现出巨大潜力。在与采用相同配置训练的 AR 基线模型进行公平对比时,SDAR 在 ChemBench 等基准上最高取得了12.3个百分点的性能优势。

在科学推理能力上,SDAR 实现了对 AR 基线模型的超越。与使用完全相同配置训练的 AR 版本进行公平对比,SDAR-30B-A3B-Sci 模型在 ChemBench(化学)和 GPQA-diamond(谷歌研究员水平科学问答)两大基准上,得分分别从 60.5 提升至 72.8 和从 61.2 提升至 66.7,取得了 12.3 和 5.5 个百分点的显著优势。这一结果有力地表明,其局部双向注意力机制对于精准理解化学式等结构化知识至关重要。

目前,该团队已全面开源从1.7B 到 30B的全系列SDAR 模型、高效推理引擎及迄今最强的开源扩散类推理模型 SDAR-30B-A3B-Sci。

大模型推理的「速度困境」:

自回归与扩散模型的两难抉择

GPT 系列模型问世以来,自回归(Autoregressive, AR)范式便成为主流。它通过「从左到右、逐词预测」的方式生成文本,完美契合了自然语言的顺序结构,这也是AR 模型效果出众的根本原因。 然而,这种严格的顺序依赖,也带来了两大与生俱来的挑战:

  • 推理速度瓶颈:生成下一词元(token)必须等待前一词元完成,完全串行的机制导致推理延迟高、服务成本居高不下,模型规模越大,问题越严峻。
  • 局部视野与不可逆生成的双重缺陷:AR模型线性的生成路径不仅带来了局部视野局限,难以整体理解化学分子式等结构化知识;更致命的是它缺乏自我修正(Self-Correction)能力。每个词元的生成都是一个不可逆的「最终决策」,一旦出错便无法挽回,导致错误累积。这与扩散模型等范式形成了鲜明对比,后者理论上支持迭代优化和全局修正,这正是它们被视为攻克复杂推理任务的关键潜力所在,也是业界探索非自回归路径的核心驱动力。

为打破僵局,研究者们将目光投向了潜力巨大的扩散模型(Diffusion Models)。其中的掩码扩散语言模型(MDLM)将整个序列视为一个整体,通过「从模糊到清晰」的迭代去噪方式并行生成,理论上能一举解决AR 模型的速度瓶颈。

但实践中,MDLM 面临两大难题:

  • 训练效率低下:ELBO 优化目标相比标准NLL 收敛更慢,导致性能不佳。值得注意的是,该工作首次对二者的训练效率进行了公平对比,实验证实,在同等算力下,MDLM 与 AR 模型的性能存在显著差距。
  • 推理成本高昂:由于缺乏类似AR 模型的 KV 缓存机制,MDLM 在推理时每一步都需要处理整个序列,导致计算复杂度高,实际部署依然昂贵。

「混合模型」虽然尝试结合二者,块内并行、块间自回归,但其特殊的训练目标函数依赖复杂的注意力掩码,导致训练开销几乎翻倍,令人望而却步。

另辟蹊径:

SDAR 如何通过「训练-推理解耦」实现双赢

面对这一困境,上海AI 实验室的研究团队重新审视问题本质,提出了一个颠覆性的思路:为什么要在同一个阶段解决所有问题?SDAR 范式的核心就是「解耦」(Decoupling):

  • 训练阶段:拥抱高效的 AR 范式。完全沿用成熟、稳定、高效的AR 模型进行预训练。这确保了模型在一个强大的基础上起步,拥有与顶尖AR 模型同等水平的知识和能力。
  • 推理阶段:轻量级适配,解锁并行解码。在 AR 预训练后,引入一个短暂且成本极低的「适配」阶段,教会模型以「块」为单位进行并行扩散式生成。

这个过程,可以理解为:先培养出一位精通单字书法的大家(强大的AR 模型),然后只用极短时间教会他「连笔挥毫」(块状并行生成)的技巧。其原有的书法功底(模型性能)丝毫未损,但创作速度(推理效率)却得到了质的飞跃。

通过这种「训练-适配」分离的设计,SDAR 完美保留了 AR 模型的全部优点——强大的性能、高效的优化、KV 缓存、可变长度生成等,同时精准地「嫁接」了扩散模型最核心的优势——并行解码带来的推理加速。

实验见真章:

性能、速度与成本的规模化验证

为了验证SDAR 的实际效果,研究团队进行了一系列严谨的实验,旨在回答三个核心问题:SDAR 性能与同级AR 模型相比如何?并行加速效果如何?改造现有AR 模型的成本高吗?

关键发现:

  • 低成本适配,性能齐平甚至超越:任何主流AR 模型都能通过低成本适配转为SDAR,并在下游任务中达到与原版AR 相当甚至更高的性能。
  • 模型越大,并行效率越高:更大的SDAR 模型能容忍更大的并行块(block size),在不牺牲性能的前提下实现更高的加速比。
  • 精度驱动效率:在 SDAR 中,模型能力的提升(更自信的预测)会直接转化为更快的解码速度,形成「越强越快」的良性循环。

性能不妥协:与 AR 基线全面对标

研究人员基于Qwen3 系列1.7B、4B、8B-dense 和 30B-A3B MoE 模型,通过「继续预训练 (CPT) + 指令微调 (SFT)」的两阶段流程,训练出SDAR-Chat 系列模型,并与采用完全相同流程训练的AR-Chat 基线进行全面对比。



图注:SDAR-Chat 和 AR-Chat 的严格比较

如上表所示,SDAR 在规模化扩展时,性能与AR 模型同步增长。在30B 规模下,SDAR-Chat 在18 个基准中的 11 个上持平或超越了其AR 版本,证明了该范式的有效性与可扩展性。

成本极低:高效的「即插即用」式适配

与需要 580B token 进行从头训练的Dream 等工作相比,SDAR 仅用 50B token的开源数据进行继续预训练,就能达到与AR 基线相当的性能。这证明了「解耦」思想的正确性:强大的 AR 预训练已为模型打下坚实基础,后续的块状扩散适配仅是一个短暂的「对齐目标」过程。这意味着社区能以极低的成本,将任何开源AR 模型轻松转换为高效的SDAR 模型

加速显著:真实部署中的效率飞跃

该研究通过「有效每步生成 Token 数」(TPF)这一指标来衡量理论加速。TPF 为 1 即为标准AR 模型



图注:SDAR 理论加速比

上图揭示了SDAR 的缩放定律:

  • 块越大,加速越明显:TPF 与块大小正相关。
  • 模型越大,加速越明显:更强的模型预测更自信,能一次性并行生成更多 token,实现更高的 TPF,形成「能力与速度」的良性循环。

在工业级推理引擎LMDeploy 上的实测结果更为直观。在对延迟敏感的小批量场景下,SDAR-8B-chat 在单张H200 上实现了相较于AR 版本 2.3 倍的实际加速,峰值吞吐量高达 6599 token/s,为实时交互应用提供了巨大优势。

解锁新潜能:

当 SDAR 遇上顶尖科学难题

除了效率提升,一个自然而然的问题是:SDAR 独特的生成机制是否会影响其复杂的推理能力?为此,研究人员基于Qwen3-30B-A3B,专门打造了一款科学推理模型 SDAR-30B-A3B-Sci,并与严格对齐训练流程的AR 版本进行对比,结果令人振奋。

关键发现:

  • 长链推理能力完整保留:SDAR 适配过程能很好地保留AR 基座模型的长思维链(CoT)推理能力。
  • 局部双向注意力优势凸显:SDAR 在需要理解局部结构化信息的任务(如化学)上表现出色。
  • 与测试时扩展策略协同增效:简单的多轮采样 + 投票就能带来巨大性能提升,显示出与RL 等技术结合的巨大潜力。

结果令人惊喜:

  • 在科学领域全面超越 AR:在 GPQA-diamond(谷歌研究员水平的科学问答)和 ChemBench(化学)等基准上,SDAR-30B-A3B-Sci 的得分比其AR 版本分别高出 5.5 和 12.3 个百分点(72.8 vs. 60.5 和 66.7 vs. 61.2)!这证明其局部双向注意力机制,对于理解化学式等结构化知识至关重要。
  • 测试时扩展潜力巨大:通过简单的多轮采样 + 多数投票(Majority Vote),SDAR 的性能得到进一步飞跃,在 AIME-2025(国际数学竞赛)上提升 +19.3%,在 LMB-hard(高难度数学)上提升 +15.7%。这表明SDAR 的并行生成范式能产生更多样化的推理路径,与集成学习等策略形成了完美互补。



图注:AR-30B-A3B-Sci and SDAR-30B-A3B-Sci 性能比较



图注:测试时扩展实验

这些结果证明,SDAR 不仅是一个「加速器」,更是一个「增强器」,为解决复杂推理任务提供了一个性能与效率俱佳的新范式。

总结与展望

SDAR 为大模型领域提供了一个强大而灵活的新工具。该研究的核心贡献可归纳为以下几点:

  • 首次公平对比 AR 与 MDLM 训练效率,用实验证实了AR 范式在训练上的巨大优势。
  • 提出创新的 SDAR 范式,通过「训练-推理」解耦,实现了AR 的高性能与扩散模型并行解码的优势结合。
  • 提供低成本的实用方案,可将任意AR 模型适配为SDAR,并验证了其在不同模型、不同架构(Dense、MoE)上的普适性。
  • 系统性揭示缩放定律,分析了模型大小、块大小、性能与速度间的关系,为未来研究提供了宝贵经验。
  • 全面开源全系列成果,包括从1.7B 到 30BSDAR 模型、轻量级和生产级的推理引擎,以及迄今最强的开源扩散类推理模型 SDAR-30B-A3B-Sci。

SDAR 的出现,不仅能让现有的大模型「飞」起来,降低应用门槛,也为探索更高性能、更高效的下一代AI 推理范式打开了一扇新的大门。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0-1!欧冠首支出局队基本确定:换了主帅继续输!6连败近乎被淘汰

0-1!欧冠首支出局队基本确定:换了主帅继续输!6连败近乎被淘汰

球场没跑道
2025-11-06 11:21:21
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
随着曼城4-1多特,巴萨3-3爆大冷,欧冠最新积分榜:全胜仅剩3队

随着曼城4-1多特,巴萨3-3爆大冷,欧冠最新积分榜:全胜仅剩3队

侃球熊弟
2025-11-06 04:50:26
轰21脚输0-1!4连败后62岁穆帅破防再喷裁判:丑陋纵容药厂不道德

轰21脚输0-1!4连败后62岁穆帅破防再喷裁判:丑陋纵容药厂不道德

我爱英超
2025-11-06 07:30:55
汪小菲真宠女儿,八万元的外套一下买两件,小玥儿穿上很显贵气

汪小菲真宠女儿,八万元的外套一下买两件,小玥儿穿上很显贵气

鋭娱之乐
2025-11-05 08:44:46
1940年炊事员在朱德饭里下毒,枪毙之时,杨奇清提出:重审此案

1940年炊事员在朱德饭里下毒,枪毙之时,杨奇清提出:重审此案

兴趣知识
2025-11-02 22:31:06
独行侠撕毁承诺!汤神被踢到替补却连抗议都不敢,终于想念库里了

独行侠撕毁承诺!汤神被踢到替补却连抗议都不敢,终于想念库里了

嘴炮体坛
2025-11-06 10:40:41
所有人不许吃肉?准大一素食女生发文求助,网友:谁做她室友谁倒霉

所有人不许吃肉?准大一素食女生发文求助,网友:谁做她室友谁倒霉

趣笔谈
2025-08-18 15:51:25
女面试官:“我肚子疼,能帮我接杯热水吗?”男子一句话,当场被录用!

女面试官:“我肚子疼,能帮我接杯热水吗?”男子一句话,当场被录用!

上海约饭局
2025-11-05 21:57:07
大胜!申京16+10+9,杜兰特26+4,你再打下去,火箭让联盟大结局

大胜!申京16+10+9,杜兰特26+4,你再打下去,火箭让联盟大结局

巴叔GO聊体育
2025-11-05 16:10:30
《现在就出发3》最无聊的3位嘉宾,无梗、无趣、败好感,别来了

《现在就出发3》最无聊的3位嘉宾,无梗、无趣、败好感,别来了

喵喵娱乐团
2025-11-05 16:36:23
跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真

跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真

极客公园
2025-11-04 12:54:39
华子复出13中5森林狼惨负尼克斯 兰德尔32分唐斯7次两双联盟第一

华子复出13中5森林狼惨负尼克斯 兰德尔32分唐斯7次两双联盟第一

醉卧浮生
2025-11-06 11:03:50
一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

老闫侃史
2025-08-10 18:05:03
5连胜!火箭124-109灰熊,阿杜11分,申京20+16+7,阿门28+10+7

5连胜!火箭124-109灰熊,阿杜11分,申京20+16+7,阿门28+10+7

薇说体育
2025-11-06 11:55:33
苏丹打得那么惨,同样也是伊教国家,环保少女为何对此一言不发

苏丹打得那么惨,同样也是伊教国家,环保少女为何对此一言不发

历史摆渡
2025-11-04 13:00:03
为啥美国总统换一个,“总统专车”就换一辆,废弃的要投入大海?

为啥美国总统换一个,“总统专车”就换一辆,废弃的要投入大海?

钦点历史
2025-11-05 15:55:39
克莱回勇水拉打铁,弗拉格20+9+2+3+2难救主,独行侠不敌西部倒一

克莱回勇水拉打铁,弗拉格20+9+2+3+2难救主,独行侠不敌西部倒一

钉钉陌上花开
2025-11-06 11:53:51
山东一男子半夜开车,偶遇红衣女子搭便车,上车后男人却被吓晕

山东一男子半夜开车,偶遇红衣女子搭便车,上车后男人却被吓晕

清茶浅谈
2024-11-29 23:57:54
曝王珂再亏12亿!刘涛凌晨发文崩溃:无力的时候该怎么办?

曝王珂再亏12亿!刘涛凌晨发文崩溃:无力的时候该怎么办?

萌姐
2025-11-04 20:41:54
2025-11-06 12:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11657文章数 142499关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

数码
旅游
手机
本地
公开课

数码要闻

华为WATCH Ultimate 2官宣:11月7日10:08开启预售

旅游要闻

这家在B站爆火的旅行社,公开了自己的秘籍

手机要闻

OV新款旗舰卖爆,天玑9500何以实现性能与能效的完美平衡?

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版