网易首页 > 网易号 > 正文 申请入驻

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

0
分享至



自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。

Fast-dLLM v2给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需~1B tokens 量级的微调即可达到 “无损” 迁移,不必训练数百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高,最高可达 2.5×



  • 作者单位:HKU、NVIDIA、MIT。
  • 论文链接:https://arxiv.org/pdf/2509.26328
  • 项目网站链接:https://nvlabs.github.io/Fast-dLLM/v2/
  • 代码链接:https://github.com/NVlabs/Fast-dLLM

核心看点



  • 少量数据适配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用约 1B tokens 的微调就能适配成 Block Diffusion LLM,不必训练数百 B tokens(如 Dream 需~580B tokens)。
  • 架构上 “AR 友好”: 设计上 块内双向、块间因果;配合互补掩码与 token-shift,让模型既保留 AR 的语义组织与可变长度能力,又获得块内并行带来的效率增益。迁移过程更自然、数据效率高。
  • 层级缓存 + 并行解码:块级 KV Cache + 子块 DualCache,配合置信度阈值的并行解码,端到端最高 2.5× 提速。
  • 大模型验证:在 7B 规模上保持与 AR 相当的生成质量下,吞吐对比 Qwen2.5-7B-Instruct 提升 2.54×。

原理与做法:从 AR 到 Block Diffusion



1)块式扩散与 AR - 友好注意力

Fast-dLLM v2 按固定块大小把序列切成若干块:块内双向注意力以并行去噪,块间保持左到右的因果关系,从而既能并行、又能沿用 AR 的语义组织、可变长度和 KV Cache;配合互补掩码(complementary masking)与 token-shift,保证每个 token 都在 “可见 / 被遮” 两种视角下学习,稳定恢复 AR 语义表征。

2)层级缓存(Hierarchical Cache)

  • 块级缓存:已解码块的 KV 直接复用,天然支持 KV Cache。
  • 子块缓存(DualCache):在部分解码的当前块内部,同时缓存前缀与后缀的 KV 激活,减少迭代去噪揭示 / 复原时的重复计算,贴合并行细化流程。



3)置信度感知的并行解码

延续 v1 的思路:当某位置的预测置信度超过阈值(如 0.9),即可并行确定多个 token,其余不确定位置保留待后续细化。在 GSM8K 上,阈值 0.9 时吞吐从 39.1→101.7 tokens/s,提速约 2.6×,精度影响可忽略。



性能结果

  • 端到端加速:综合实验显示,对标准 AR 解码最高 2.5× 提速,同时维持生成质量。
  • 7B 规模吞吐与精度:在 A100 上,Fast-dLLM v2(7B)吞吐为 Qwen2.5-7B-Instruct 的 2.54×;同时对比 Fast-dLLM-LLaDA 还有 +5.2% 的准确率提升(GSM8K)。
  • Batch / 硬件可扩展性:在 A100/H100 上随 batch 增大,扩散解码的并行优势更明显;A100 上可达~1.5× 吞吐加速,H100 上最高可达~1.8× 加速。



  • Benchmark 综合得分:
  • 1.5B:平均分45.0,超过 Qwen2.5-1.5B 与 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后训练数据集上对 Qwen 做的标准 NTP 微调 baseline);在同量级(≈1B 规模)的扩散类与 NTP 训练的 AR 类模型里,属于新的 SOTA。
  • 7B:平均分60.3,超过 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多数单项基准上持平或更好。评测覆盖 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多项基准。



训练成本

数据 / 算力成本:以~1B tokens 量级微调把 AR 模型适配为 Block Diffusion LLM(对比 Dream 的~500B tokens),门槛显著降低;论文给出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具体训练步数与配置,只需要几个小时即可完成训练,可复现性强

总结

Fast-dLLM v2 提供了一条务实路线:用很少的数据(~1B tokens)把 AR 模型适配为 Block Diffusion LLM,相较等规模 AR 的端到端吞吐量约提升 2.5×,精度保持可比,并且关键开关(块大小、阈值、缓存)都能工程化地按目标调优,这是一个成本与收益比较均衡的解法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过年我妈来住9天,丈夫甩了9天脸,婆婆要来,我的话让他哑口无言

过年我妈来住9天,丈夫甩了9天脸,婆婆要来,我的话让他哑口无言

诡谲怪谈
2025-10-23 16:14:01
罕见!暴雪+暴雨!湖北也将大降温

罕见!暴雪+暴雨!湖北也将大降温

湖北e家庭
2025-11-03 11:28:57
力压陈芋汐夺冠,曝张家齐支招,全红婵夺冠后,谁注意恩师举动

力压陈芋汐夺冠,曝张家齐支招,全红婵夺冠后,谁注意恩师举动

乐聊球
2025-11-03 12:49:35
英联杯1/4决赛开球时间:阿森纳vs水晶宫12月24日4:00开打

英联杯1/4决赛开球时间:阿森纳vs水晶宫12月24日4:00开打

懂球帝
2025-11-04 00:21:13
湖北省委书记,调研岚图汽车

湖北省委书记,调研岚图汽车

政知新媒体
2025-11-03 23:10:06
梅德韦杰夫:西方援乌5000亿欧元,基辅政权大肆窃取资金

梅德韦杰夫:西方援乌5000亿欧元,基辅政权大肆窃取资金

时尚的弄潮
2025-11-04 01:36:06
这是李鸿章妻妾的真实样貌:个个美艳身材修长,颜值不输当代女星

这是李鸿章妻妾的真实样貌:个个美艳身材修长,颜值不输当代女星

沈言论
2025-11-03 16:35:03
江西小伙内蒙旅游误入蒙族婚宴,随礼2888,走前被新娘妹妹拦住

江西小伙内蒙旅游误入蒙族婚宴,随礼2888,走前被新娘妹妹拦住

故事秘栈
2025-06-21 18:56:16
晚年异性靠近你,真不是为钱为房那么简单!

晚年异性靠近你,真不是为钱为房那么简单!

青苹果sht
2025-09-17 05:36:01
进度已达90%!呼和浩特进入全盛期!最近每天都不一样,呼市人抓紧出门

进度已达90%!呼和浩特进入全盛期!最近每天都不一样,呼市人抓紧出门

小小包工头阿汾
2025-11-04 00:08:27
减肥的尽头是提代谢!5个办法让代谢飙升20%

减肥的尽头是提代谢!5个办法让代谢飙升20%

增肌减脂
2025-11-03 17:00:24
天空体育:张伯伦目前正在阿森纳训练,同时筹划下一步动向

天空体育:张伯伦目前正在阿森纳训练,同时筹划下一步动向

懂球帝
2025-11-03 21:01:06
印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

趣笔谈
2025-09-29 16:51:57
土库曼斯坦结清中国所有债务,却还想跟中国继续合作,为什么?​

土库曼斯坦结清中国所有债务,却还想跟中国继续合作,为什么?​

南宫一二
2025-10-01 09:46:50
1928年,杨宇霆被枪决前和张学良合影,注意看站姿,早已分道扬镳

1928年,杨宇霆被枪决前和张学良合影,注意看站姿,早已分道扬镳

文史微鉴
2025-10-11 17:25:03
美最高法院将听取关税合法性辩论!特朗普:美国史上最重要案件之一,不会出席

美最高法院将听取关税合法性辩论!特朗普:美国史上最重要案件之一,不会出席

极目新闻
2025-11-03 14:45:34
亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

卷史
2025-09-23 17:10:15
适合轻熟气质的姐姐穿的简约搭配

适合轻熟气质的姐姐穿的简约搭配

美女穿搭分享
2025-10-08 14:47:01
炮王2年约300名女孩,聊天记录不堪入目:“年轻女孩,真好睡!”

炮王2年约300名女孩,聊天记录不堪入目:“年轻女孩,真好睡!”

书画艺术收藏
2025-07-13 19:30:03
男人注意!女人要是真舍得让你摸这几个部位,她对你绝不是玩玩

男人注意!女人要是真舍得让你摸这几个部位,她对你绝不是玩玩

朗威谈星座
2025-11-01 15:04:27
2025-11-04 03:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11635文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

日本组建特种作战旅 主要面向海外作战

头条要闻

日本组建特种作战旅 主要面向海外作战

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

旅游
时尚
教育
艺术
军事航空

旅游要闻

上海迪士尼官宣"更新"!再造第四座主题酒店

这些才是适合普通人的穿搭!多穿基础款和半身裙,简约又得体

教育要闻

康熙身边的洋顾问

艺术要闻

这21位欧美女神,惊艳得让人窒息!

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版