网易首页 > 网易号 > 正文 申请入驻

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

0
分享至

自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。

Fast-dLLM v2给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需~1B tokens 量级的微调即可达到 “无损” 迁移,不必训练数百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高,最高可达 2.5×

  • 作者单位:HKU、NVIDIA、MIT。
  • 论文链接:https://arxiv.org/pdf/2509.26328
  • 项目网站链接:https://nvlabs.github.io/Fast-dLLM/v2/
  • 代码链接:https://github.com/NVlabs/Fast-dLLM

核心看点

  • 少量数据适配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用约 1B tokens 的微调就能适配成 Block Diffusion LLM,不必训练数百 B tokens(如 Dream 需~580B tokens)。
  • 架构上 “AR 友好”: 设计上 块内双向、块间因果;配合互补掩码与 token-shift,让模型既保留 AR 的语义组织与可变长度能力,又获得块内并行带来的效率增益。迁移过程更自然、数据效率高。
  • 层级缓存 + 并行解码:块级 KV Cache + 子块 DualCache,配合置信度阈值的并行解码,端到端最高 2.5× 提速。
  • 大模型验证:在 7B 规模上保持与 AR 相当的生成质量下,吞吐对比 Qwen2.5-7B-Instruct 提升 2.54×。

原理与做法:从 AR 到 Block Diffusion

1)块式扩散与 AR - 友好注意力

Fast-dLLM v2 按固定块大小把序列切成若干块:块内双向注意力以并行去噪,块间保持左到右的因果关系,从而既能并行、又能沿用 AR 的语义组织、可变长度和 KV Cache;配合互补掩码(complementary masking)与 token-shift,保证每个 token 都在 “可见 / 被遮” 两种视角下学习,稳定恢复 AR 语义表征。

2)层级缓存(Hierarchical Cache)

  • 块级缓存:已解码块的 KV 直接复用,天然支持 KV Cache。
  • 子块缓存(DualCache):在部分解码的当前块内部,同时缓存前缀与后缀的 KV 激活,减少迭代去噪揭示 / 复原时的重复计算,贴合并行细化流程。

3)置信度感知的并行解码

延续 v1 的思路:当某位置的预测置信度超过阈值(如 0.9),即可并行确定多个 token,其余不确定位置保留待后续细化。在 GSM8K 上,阈值 0.9 时吞吐从 39.1→101.7 tokens/s,提速约 2.6×,精度影响可忽略。

性能结果

  • 端到端加速:综合实验显示,对标准 AR 解码最高 2.5× 提速,同时维持生成质量。
  • 7B 规模吞吐与精度:在 A100 上,Fast-dLLM v2(7B)吞吐为 Qwen2.5-7B-Instruct 的 2.54×;同时对比 Fast-dLLM-LLaDA 还有 +5.2% 的准确率提升(GSM8K)。
  • Batch / 硬件可扩展性:在 A100/H100 上随 batch 增大,扩散解码的并行优势更明显;A100 上可达~1.5× 吞吐加速,H100 上最高可达~1.8× 加速。

  • Benchmark 综合得分:
  • 1.5B:平均分45.0,超过 Qwen2.5-1.5B 与 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后训练数据集上对 Qwen 做的标准 NTP 微调 baseline);在同量级(≈1B 规模)的扩散类与 NTP 训练的 AR 类模型里,属于新的 SOTA。
  • 7B:平均分60.3,超过 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多数单项基准上持平或更好。评测覆盖 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多项基准。

训练成本

数据 / 算力成本:以~1B tokens 量级微调把 AR 模型适配为 Block Diffusion LLM(对比 Dream 的~500B tokens),门槛显著降低;论文给出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具体训练步数与配置,只需要几个小时即可完成训练,可复现性强

总结

Fast-dLLM v2 提供了一条务实路线:用很少的数据(~1B tokens)把 AR 模型适配为 Block Diffusion LLM,相较等规模 AR 的端到端吞吐量约提升 2.5×,精度保持可比,并且关键开关(块大小、阈值、缓存)都能工程化地按目标调优,这是一个成本与收益比较均衡的解法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纳帅:比赛前48小时才知道淘汰赛对手?偶尔熬个通宵问题不大

纳帅:比赛前48小时才知道淘汰赛对手?偶尔熬个通宵问题不大

懂球帝
2026-06-25 12:34:15
李小璐母亲:我这辈子最后悔的决定,就是心软让女儿嫁给了贾乃亮

李小璐母亲:我这辈子最后悔的决定,就是心软让女儿嫁给了贾乃亮

她时尚丫
2026-03-22 21:32:14
多少分可以上深圳的大学?深圳14所大学最低录取分数线→

多少分可以上深圳的大学?深圳14所大学最低录取分数线→

深圳本地宝
2026-06-25 20:52:33
无视美军,大陆正式接管台东,第一岛链崩盘,两岸统一只差一步

无视美军,大陆正式接管台东,第一岛链崩盘,两岸统一只差一步

瞻史
2026-06-22 09:22:33
没想到,世界杯还未过半,全红婵一家却凭一举动,实现口碑暴涨

没想到,世界杯还未过半,全红婵一家却凭一举动,实现口碑暴涨

法老不说教
2026-06-24 16:03:10
“歼15D电战机只有1架,没大规模列装”,瞅瞅美军智库的信息茧房

“歼15D电战机只有1架,没大规模列装”,瞅瞅美军智库的信息茧房

巅峰高地
2026-06-24 21:26:38
比光模块稀缺,比硅光硬核:磷化铟6龙头,AI时代的“战略物资”

比光模块稀缺,比硅光硬核:磷化铟6龙头,AI时代的“战略物资”

白浅娱乐聊
2026-06-25 08:03:40
定了!下半年起,宽带费、有线电视费全面大洗牌!家家都能省钱

定了!下半年起,宽带费、有线电视费全面大洗牌!家家都能省钱

林子说事
2026-06-18 19:58:33
收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

晓徙娱乐
2026-03-23 16:35:39
中国重拳反制澳大利亚!关税大棒已砸下,澳方别把中国真惹毛了!

中国重拳反制澳大利亚!关税大棒已砸下,澳方别把中国真惹毛了!

暖心萌阿菇凉
2026-06-24 23:13:32
贝克汉姆大儿媳发文表白布鲁克林:你是我见过的最善良的男人

贝克汉姆大儿媳发文表白布鲁克林:你是我见过的最善良的男人

可乐谈情感
2026-06-25 13:22:45
两岸船只对峙后,多国发表联合声明,禁止改变现状,中方定调统一

两岸船只对峙后,多国发表联合声明,禁止改变现状,中方定调统一

霁寒飘雪
2026-06-25 19:44:30
短短30分钟,1签约1交易达成!勇士首笔操作,森林狼疯狂豪赌

短短30分钟,1签约1交易达成!勇士首笔操作,森林狼疯狂豪赌

体坛小李
2026-06-25 23:05:18
世体:戈登世界杯两战首发表现平淡;拉什福德替补登场表现更好

世体:戈登世界杯两战首发表现平淡;拉什福德替补登场表现更好

懂球帝
2026-06-25 14:52:53
别被电视剧骗了!这才是清朝王爷大臣的真实照片,手指甲都很长!

别被电视剧骗了!这才是清朝王爷大臣的真实照片,手指甲都很长!

史不语
2026-06-22 06:00:09
伊朗要变天了!伊朗最高领袖可能已收回所有权力,终于要明牌了?

伊朗要变天了!伊朗最高领袖可能已收回所有权力,终于要明牌了?

飞鸟各投林
2026-06-24 23:16:32
李玟遗嘱执行人,起诉李玟生前精神科主诊医生及两名救护员

李玟遗嘱执行人,起诉李玟生前精神科主诊医生及两名救护员

大象新闻
2026-06-25 17:17:04
癌症是基因注定的,躲也躲不掉?父母得了5种癌,或遗传给下一代

癌症是基因注定的,躲也躲不掉?父母得了5种癌,或遗传给下一代

39健康网
2026-06-25 08:30:42
印度一名30岁女子深夜出门如厕遭5人轮奸,体内被塞入实弹、石块,3名嫌犯三个月前就曾入室作恶,警方拒不立案引发众怒

印度一名30岁女子深夜出门如厕遭5人轮奸,体内被塞入实弹、石块,3名嫌犯三个月前就曾入室作恶,警方拒不立案引发众怒

大风新闻
2026-06-24 14:39:04
当不成首相了?高市被调查,日本爆发抗议,美俄给日本"下马威"

当不成首相了?高市被调查,日本爆发抗议,美俄给日本"下马威"

大海呀大海
2026-06-24 22:40:59
2026-06-26 02:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13360文章数 142682关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

佛得角震撼世界足坛 佛得角足协给中国男足支招

头条要闻

佛得角震撼世界足坛 佛得角足协给中国男足支招

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
时尚
家居
手机
公开课

教育要闻

这是南京什么神仙学校?高分学子扎堆!

女人不管多大年纪,夏天都要准备一两条过膝裙,舒适又提气质

家居要闻

绿意盎然 自然之境

手机要闻

安卓首个液态玻璃!荣耀MagicOS 11上手实拍:效果可自由调节

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版