网易首页 > 网易号 > 正文 申请入驻

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

0
分享至



自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。

Fast-dLLM v2给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需~1B tokens 量级的微调即可达到 “无损” 迁移,不必训练数百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高,最高可达 2.5×



  • 作者单位:HKU、NVIDIA、MIT。
  • 论文链接:https://arxiv.org/pdf/2509.26328
  • 项目网站链接:https://nvlabs.github.io/Fast-dLLM/v2/
  • 代码链接:https://github.com/NVlabs/Fast-dLLM

核心看点



  • 少量数据适配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用约 1B tokens 的微调就能适配成 Block Diffusion LLM,不必训练数百 B tokens(如 Dream 需~580B tokens)。
  • 架构上 “AR 友好”: 设计上 块内双向、块间因果;配合互补掩码与 token-shift,让模型既保留 AR 的语义组织与可变长度能力,又获得块内并行带来的效率增益。迁移过程更自然、数据效率高。
  • 层级缓存 + 并行解码:块级 KV Cache + 子块 DualCache,配合置信度阈值的并行解码,端到端最高 2.5× 提速。
  • 大模型验证:在 7B 规模上保持与 AR 相当的生成质量下,吞吐对比 Qwen2.5-7B-Instruct 提升 2.54×。

原理与做法:从 AR 到 Block Diffusion



1)块式扩散与 AR - 友好注意力

Fast-dLLM v2 按固定块大小把序列切成若干块:块内双向注意力以并行去噪,块间保持左到右的因果关系,从而既能并行、又能沿用 AR 的语义组织、可变长度和 KV Cache;配合互补掩码(complementary masking)与 token-shift,保证每个 token 都在 “可见 / 被遮” 两种视角下学习,稳定恢复 AR 语义表征。

2)层级缓存(Hierarchical Cache)

  • 块级缓存:已解码块的 KV 直接复用,天然支持 KV Cache。
  • 子块缓存(DualCache):在部分解码的当前块内部,同时缓存前缀与后缀的 KV 激活,减少迭代去噪揭示 / 复原时的重复计算,贴合并行细化流程。



3)置信度感知的并行解码

延续 v1 的思路:当某位置的预测置信度超过阈值(如 0.9),即可并行确定多个 token,其余不确定位置保留待后续细化。在 GSM8K 上,阈值 0.9 时吞吐从 39.1→101.7 tokens/s,提速约 2.6×,精度影响可忽略。



性能结果

  • 端到端加速:综合实验显示,对标准 AR 解码最高 2.5× 提速,同时维持生成质量。
  • 7B 规模吞吐与精度:在 A100 上,Fast-dLLM v2(7B)吞吐为 Qwen2.5-7B-Instruct 的 2.54×;同时对比 Fast-dLLM-LLaDA 还有 +5.2% 的准确率提升(GSM8K)。
  • Batch / 硬件可扩展性:在 A100/H100 上随 batch 增大,扩散解码的并行优势更明显;A100 上可达~1.5× 吞吐加速,H100 上最高可达~1.8× 加速。



  • Benchmark 综合得分:
  • 1.5B:平均分45.0,超过 Qwen2.5-1.5B 与 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后训练数据集上对 Qwen 做的标准 NTP 微调 baseline);在同量级(≈1B 规模)的扩散类与 NTP 训练的 AR 类模型里,属于新的 SOTA。
  • 7B:平均分60.3,超过 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多数单项基准上持平或更好。评测覆盖 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多项基准。



训练成本

数据 / 算力成本:以~1B tokens 量级微调把 AR 模型适配为 Block Diffusion LLM(对比 Dream 的~500B tokens),门槛显著降低;论文给出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具体训练步数与配置,只需要几个小时即可完成训练,可复现性强

总结

Fast-dLLM v2 提供了一条务实路线:用很少的数据(~1B tokens)把 AR 模型适配为 Block Diffusion LLM,相较等规模 AR 的端到端吞吐量约提升 2.5×,精度保持可比,并且关键开关(块大小、阈值、缓存)都能工程化地按目标调优,这是一个成本与收益比较均衡的解法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿森纳必须卖掉这位昔日王牌!当年天赋碾压道曼,如今却成累赘

阿森纳必须卖掉这位昔日王牌!当年天赋碾压道曼,如今却成累赘

澜归序
2026-03-22 01:51:04
田栩宁终于凉了?曝代言、影视剧资源全面叫停,出轨风波影响恶劣

田栩宁终于凉了?曝代言、影视剧资源全面叫停,出轨风波影响恶劣

萌神木木
2026-03-21 16:00:14
网贷行业的天,塌了

网贷行业的天,塌了

新浪财经
2026-03-20 18:26:53
油价一夜突变!3月20日全国油价调整后92/95汽油价格、0号柴油价格最新公布

油价一夜突变!3月20日全国油价调整后92/95汽油价格、0号柴油价格最新公布

趣味萌宠的日常
2026-03-20 11:07:44
逆天了,江西成了全国唯一一个敢上调GDP增速目标的省份

逆天了,江西成了全国唯一一个敢上调GDP增速目标的省份

不惑猪的频道
2026-03-20 11:59:30
一本被禁30年的书,禁的是什么

一本被禁30年的书,禁的是什么

战争电影精选
2026-03-21 12:58:58
“锌”是聪明根!春天孩子多吃高锌菜,脑子灵、记性好、个头猛长

“锌”是聪明根!春天孩子多吃高锌菜,脑子灵、记性好、个头猛长

距离距离
2026-03-21 22:15:32
浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

独角showing
2025-12-31 21:08:57
京辽大战赵睿陈盈骏合砍52分10助攻,拯救的不是许利民而是周琦

京辽大战赵睿陈盈骏合砍52分10助攻,拯救的不是许利民而是周琦

姜大叔侃球
2026-03-21 23:00:42
黑龙江一女子接孩子放学忘关火,导致厨房被烧,两只猫被熏死

黑龙江一女子接孩子放学忘关火,导致厨房被烧,两只猫被熏死

大象新闻
2026-03-21 16:45:16
雷军:续航达到902公里,只用96.3度电;王兴兴、何小鹏、王传福现身新一代SU7发布会

雷军:续航达到902公里,只用96.3度电;王兴兴、何小鹏、王传福现身新一代SU7发布会

大风新闻
2026-03-19 20:15:21
20万彩礼娶回个“祖宗”!班不上、活不干,一网友哭诉只会买买买

20万彩礼娶回个“祖宗”!班不上、活不干,一网友哭诉只会买买买

火山詩话
2026-03-21 09:38:42
8类人最易患阿尔茨海默病:蛋白质不足加速大脑衰老!摄入量指南

8类人最易患阿尔茨海默病:蛋白质不足加速大脑衰老!摄入量指南

罗夕夕博士
2026-03-20 22:10:44
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
余瓦达二儿子宣布泰国女友,王室海报一个词诛心,维护提帮功正统

余瓦达二儿子宣布泰国女友,王室海报一个词诛心,维护提帮功正统

阿废冷眼观察所
2026-03-21 19:29:23
郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

玥来玥好讲故事
2025-12-27 17:01:58
解放前山东省最大的地主

解放前山东省最大的地主

近史谈
2026-03-21 12:00:58
限流!停车场已饱和!绍兴热门景区发布公告

限流!停车场已饱和!绍兴热门景区发布公告

绍兴E网
2026-03-21 14:13:37
出口暴增!中国风机成了最抢手的硬通货,十大核心龙头股揭秘

出口暴增!中国风机成了最抢手的硬通货,十大核心龙头股揭秘

小白鸽财经
2026-03-21 20:30:03
以方:伊朗权力核心人物被击毙!

以方:伊朗权力核心人物被击毙!

Nee看
2026-03-17 16:48:23
2026-03-22 06:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142589关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗导弹击中以色列核设施附近 大范围爆炸视频公布

头条要闻

伊朗导弹击中以色列核设施附近 大范围爆炸视频公布

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

教育
艺术
手机
健康
公开课

教育要闻

最推荐恩人去的几所英国大学!

艺术要闻

你的母校在吗?毛主席亲笔题名的 20 所大学合集

手机要闻

终端市场集体喊“涨” 手机面板持续走“跌”

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版