网易首页 > 网易号 > 正文 申请入驻

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

0
分享至



自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。

Fast-dLLM v2给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需~1B tokens 量级的微调即可达到 “无损” 迁移,不必训练数百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高,最高可达 2.5×



  • 作者单位:HKU、NVIDIA、MIT。
  • 论文链接:https://arxiv.org/pdf/2509.26328
  • 项目网站链接:https://nvlabs.github.io/Fast-dLLM/v2/
  • 代码链接:https://github.com/NVlabs/Fast-dLLM

核心看点



  • 少量数据适配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用约 1B tokens 的微调就能适配成 Block Diffusion LLM,不必训练数百 B tokens(如 Dream 需~580B tokens)。
  • 架构上 “AR 友好”: 设计上 块内双向、块间因果;配合互补掩码与 token-shift,让模型既保留 AR 的语义组织与可变长度能力,又获得块内并行带来的效率增益。迁移过程更自然、数据效率高。
  • 层级缓存 + 并行解码:块级 KV Cache + 子块 DualCache,配合置信度阈值的并行解码,端到端最高 2.5× 提速。
  • 大模型验证:在 7B 规模上保持与 AR 相当的生成质量下,吞吐对比 Qwen2.5-7B-Instruct 提升 2.54×。

原理与做法:从 AR 到 Block Diffusion



1)块式扩散与 AR - 友好注意力

Fast-dLLM v2 按固定块大小把序列切成若干块:块内双向注意力以并行去噪,块间保持左到右的因果关系,从而既能并行、又能沿用 AR 的语义组织、可变长度和 KV Cache;配合互补掩码(complementary masking)与 token-shift,保证每个 token 都在 “可见 / 被遮” 两种视角下学习,稳定恢复 AR 语义表征。

2)层级缓存(Hierarchical Cache)

  • 块级缓存:已解码块的 KV 直接复用,天然支持 KV Cache。
  • 子块缓存(DualCache):在部分解码的当前块内部,同时缓存前缀与后缀的 KV 激活,减少迭代去噪揭示 / 复原时的重复计算,贴合并行细化流程。



3)置信度感知的并行解码

延续 v1 的思路:当某位置的预测置信度超过阈值(如 0.9),即可并行确定多个 token,其余不确定位置保留待后续细化。在 GSM8K 上,阈值 0.9 时吞吐从 39.1→101.7 tokens/s,提速约 2.6×,精度影响可忽略。



性能结果

  • 端到端加速:综合实验显示,对标准 AR 解码最高 2.5× 提速,同时维持生成质量。
  • 7B 规模吞吐与精度:在 A100 上,Fast-dLLM v2(7B)吞吐为 Qwen2.5-7B-Instruct 的 2.54×;同时对比 Fast-dLLM-LLaDA 还有 +5.2% 的准确率提升(GSM8K)。
  • Batch / 硬件可扩展性:在 A100/H100 上随 batch 增大,扩散解码的并行优势更明显;A100 上可达~1.5× 吞吐加速,H100 上最高可达~1.8× 加速。



  • Benchmark 综合得分:
  • 1.5B:平均分45.0,超过 Qwen2.5-1.5B 与 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后训练数据集上对 Qwen 做的标准 NTP 微调 baseline);在同量级(≈1B 规模)的扩散类与 NTP 训练的 AR 类模型里,属于新的 SOTA。
  • 7B:平均分60.3,超过 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多数单项基准上持平或更好。评测覆盖 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多项基准。



训练成本

数据 / 算力成本:以~1B tokens 量级微调把 AR 模型适配为 Block Diffusion LLM(对比 Dream 的~500B tokens),门槛显著降低;论文给出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具体训练步数与配置,只需要几个小时即可完成训练,可复现性强

总结

Fast-dLLM v2 提供了一条务实路线:用很少的数据(~1B tokens)把 AR 模型适配为 Block Diffusion LLM,相较等规模 AR 的端到端吞吐量约提升 2.5×,精度保持可比,并且关键开关(块大小、阈值、缓存)都能工程化地按目标调优,这是一个成本与收益比较均衡的解法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黑色星期一!见证历史!

黑色星期一!见证历史!

中国基金报
2026-02-02 15:27:51
国际奥委会感到失望,上海、成都、广州三座城市均未提交申请。

国际奥委会感到失望,上海、成都、广州三座城市均未提交申请。

南权先生
2026-02-02 15:57:03
崩盘的远不止金银

崩盘的远不止金银

妙投APP
2026-02-02 06:32:13
15万亿瞬间蒸发!特朗普终于动手:这是一场针对中国的金融屠杀?

15万亿瞬间蒸发!特朗普终于动手:这是一场针对中国的金融屠杀?

来科点谱
2026-02-02 19:37:47
艺术总监回应大S雕像不写实争议:不是为了重现熙媛的样貌,而是为她留下的精神,找到一个可以停留的地方

艺术总监回应大S雕像不写实争议:不是为了重现熙媛的样貌,而是为她留下的精神,找到一个可以停留的地方

台州交通广播
2026-02-02 19:06:22
澳网再现歧视华人事件!白人夫妇竖中指怒骂华人母子:滚回中国去

澳网再现歧视华人事件!白人夫妇竖中指怒骂华人母子:滚回中国去

风过乡
2026-02-01 15:15:03
涉嫌严重违纪违法,吴晓轮被查!

涉嫌严重违纪违法,吴晓轮被查!

中国基金报
2026-02-02 19:13:42
李嘉诚巴拿马港口丢25年经营权 损失87亿美元 口炮们赔吗?

李嘉诚巴拿马港口丢25年经营权 损失87亿美元 口炮们赔吗?

原某报记者
2026-02-02 18:39:36
临近春节43岁姚笛突传喜讯,和文章做出相同决定,终是马伊琍输了

临近春节43岁姚笛突传喜讯,和文章做出相同决定,终是马伊琍输了

以茶带书
2026-02-02 15:04:14
2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

素衣读史
2026-02-02 19:24:56
现货黄金重回4800美元

现货黄金重回4800美元

每日经济新闻
2026-02-02 21:25:49
爱泼斯坦最新文件:川普办未成年性派对,老布什&克林顿共同性侵男性

爱泼斯坦最新文件:川普办未成年性派对,老布什&克林顿共同性侵男性

玛丽姬丝
2026-02-02 12:42:14
奔驰突然大范围调价

奔驰突然大范围调价

都市快报橙柿互动
2026-02-02 19:19:15
周生生足金挂坠戴一天就被刮花,检测后发现含铁、银、钯

周生生足金挂坠戴一天就被刮花,检测后发现含铁、银、钯

都市快报橙柿互动
2026-02-02 22:03:00
2-0爆大冷!誉为“史上最强U17国足”掀翻亚洲冠军,夺亚洲杯有戏

2-0爆大冷!誉为“史上最强U17国足”掀翻亚洲冠军,夺亚洲杯有戏

大秦壁虎白话体育
2026-02-02 21:01:47
57岁金牌音乐人袁惟仁病逝,2022年被判定为植物人状态

57岁金牌音乐人袁惟仁病逝,2022年被判定为植物人状态

红星新闻
2026-02-02 19:23:52
我爆仓了!二三十年的积蓄7亿美金清算,一个币圈大佬的临终遗言

我爆仓了!二三十年的积蓄7亿美金清算,一个币圈大佬的临终遗言

火山诗话
2026-02-02 10:35:13
再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

环球网资讯
2026-02-02 06:57:29
C罗罢赛引沙特震荡!金主吓坏+赶忙安抚 考虑为他签下2名重磅新援

C罗罢赛引沙特震荡!金主吓坏+赶忙安抚 考虑为他签下2名重磅新援

我爱英超
2026-02-02 21:17:19
震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

派大星纪录片
2026-02-02 15:53:19
2026-02-03 00:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

游戏
教育
亲子
数码
军事航空

卡芙卡与刃登场 《堡垒之夜》官宣联动《崩铁》

教育要闻

家长反映高一学生无一教辅、依赖打印资料,教育局回应

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

数码要闻

格力再强调暂无铝代铜计划!铝和铜各方面存在较大差距

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版