网易首页 > 网易号 > 正文 申请入驻

上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍

0
分享至



视频 1:D2F dLLMs 与同尺寸 AR LLMs 的推理过程对比示意

在大语言模型(LLMs)领域,自回归(AR)范式长期占据主导地位,但其逐 token 生成也带来了固有的推理效率瓶颈。此前,谷歌的 Gemini Diffusion 和字节的 Seed Diffusion 以每秒千余 Tokens 的惊人吞吐量,向业界展现了扩散大语言模型(dLLMs)在推理速度上的巨大潜力。然而,当前的开源 dLLMs 却因一定的技术挑战 —— 例如缺少完善的 KV 缓存机制,以及未充分释放并行潜力 —— 推理速度远慢于同规模的 AR 模型。

近期的一篇工作彻底扭转了这个局面。上海交通大学 DENG Lab 联合加州大学圣地亚哥分校(UCSD)推出Discrete Diffusion Forcing(D2F),首次使开源 dLLMs 的生成速度显著超过同等规模的 AR 模型。实验显示,D2F 模型在 GSM8K 等基准上,实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升,同时相比于原始的 dLLMs 模型实现了最高达 50 倍的加速。

本文作者团队来自上海交通大学 DENG Lab 与加州大学圣地亚哥分校(UCSD)。该研究由硕士生王旭、准硕士生徐晨开、本科生金义杰以及博士生金佳纯共同完成,指导教师为邓志杰与张浩老师。DENG Lab 隶属上海交通大学,致力于高效、跨模态生成模型的研究。



  • 论文地址:https://arxiv.org/abs/2508.09192
  • 代码地址:https://github.com/zhijie-group/Discrete-Diffusion-Forcing
  • 项目主页:https://zhijie-group.github.io/Discrete-Diffusion-Forcing/
  • 模型仓库:https://huggingface.co/SJTU-Deng-Lab/D2F_Dream_Base_7B_Lora, https://huggingface.co/SJTU-Deng-Lab/D2F_LLaDA_Instruct_8B_Lora
  • Demo 地址:https://huggingface.co/spaces/zhijie3/D2F-LLaDA-Instruct-8B



图 1:D2F dLLMs 实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升

简单来说,D2F 赋予了 dLLMs 几种关键特性:

1. 自回归 - 扩散混合架构:引入块级自回归生成,块间保持因果性,让模型能够有效利用 KV 缓存。

2. 块内 + 块间双尺度并行:引入了块内 token 间并行解码和块间并行解码,最大化并行生成潜力

3. 双状态解码:通过设计双状态的块解码流水线,最大化吞吐量。

4.更优的 tradeoff:相比原始 dLLMs,具有显著更优的性能 - 效率权衡

5. vLLM 集成:已将 vLLM 集成到 D2F 中,让推理速度更进一步

问题的根源:dLLMs 理论优势与现实瓶颈

扩散大语言模型(dLLMs)理论上具有并行生成 token 的能力,不必像 AR 模型一样逐个生成,从而在推理效率上具备巨大潜力。然而,在实践中,现有的开源 dLLMs 并未充分展现这一优势,其推理速度往往落后于 AR 模型,这个瓶颈主要源于两个基础性问题:

KV Cache 的不兼容性:标准 dLLM 依赖双向注意力机制来获取全局上下文,导致 AR 模型中常见的 KV 缓存加速技术无法直接应用于 dLLMs。在每次去噪迭代中,模型都需要重新计算所有 token 的 K、V 矩阵,造成了巨大的计算冗余。

块间解码的串行限制:为了引入缓存机制,一些工作尝试将生成过程分块(block-wise)。但这些方法通常要求严格的块间顺序,即只有前一个块必须被完全解码后,才能开始处理下一个块。这种严格的依赖使得并行生成仅限于块内而无法应用于块之间,极大地限制了整体的并行潜力。

因此,想要释放 dLLMs 的潜力,就必须同时解决 KV Cache 的兼容性与块间的并行解码问题。

D2F 的核心设计:一种自回归 - 扩散混合范式

面对上述瓶颈,D2F 的核心思想是构建一个融合自回归和扩散思想的混合范式,协同设计高效的模型架构,训练方法以及推理策略。

架构:块级因果注意力,兼容 KV Cache

为了让 dLLMs 能真正兼容 KV 缓存,D2F 将 dLLMs 中标准的双向注意力机制重塑为了块级因果注意力。具体来说:

  • 块内(Intra-block):保持标准的双向注意力,以充分利用块内的上下文信息。
  • 块间(Inter-block):使用因果注意力,即任意一个块只能关注其自身及所有在它之前的块。

这种设计在块的层面上建立了自回归的顺序。每个生成完成的块的 KV 状态被缓存并在后续复用,从而根本上解决了 KV Cache 的兼容性问题,大幅减少了冗余计算。

训练:非对称蒸馏与结构化噪声



图 2:D2F dLLMs 基于非对称蒸馏实现训练

为了避免从头训练 dLLMs 的高昂成本。D2F 使用了非对称蒸馏策略,将一个预训练好的 dLLMs 教师模型的能力,高效地蒸馏到 D2F 学生模型上。两者区别在于教师模型使用双向全注意力而学生模型使用块级因果注意力。

为了进一步解锁学生的块间并行能力,D2F 引入了单调递增的结构化噪声调度。具体而言,训练数据前向加噪过程中,序列靠前的块被施加较小的噪声而靠后的块被施加更大的噪声。这种结构化的噪声训练,其目的是为了教会学生模型如何依据部分去噪、尚不清晰的前文来预测后文。

推理:流水线并行解码



图 3:D2F dLLMs 的推理流程示意

在上述训练范式的基础上,D2F 设计了一套创新的并行解码算法:Pipelined Parallel Decoding。

该算法维护一个动态的待解码窗口,其中包括若干 tokens 块。在必要时,新块以半激活的状态进入窗口,并在前缀去噪到一定比例后转为全激活状态。这种动态添加和双状态解码的机制,确保了流水线的高效和质量。

两种状态的区别主要在于解码策略的激进程度:

  • 半激活状态(Semi-activated):只接受那些预测置信度超过某一阈值τ_conf的 token。
  • 全激活状态(Fully-activated):如果没有 token 超过置信度阈值,也会选择置信度最高的一个 token 进行解码。

视频 2:D2F dLLMs 推理过程中显式地对多个块进行并行解码

实验结果

速度提升,性能不降

D2F 给原始 dLLM 带来了最高可达 50 倍的加速,同时平均性能不下降。



图 4:D2F-LLaDA 与基线方法的对比



图 5:D2F-Dream 与基线方法的对比

优异的性能 - 效率权衡曲线

D2F 提供了一条远优于现有模型的性能 - 效率权衡曲线。通过调整解码参数,D2F 可以适应各种场景,在性能和速度之间做出灵活的选择。例如,在 MBPP 任务上,通过稍微牺牲性能,吞吐量可达 AR 模型的 4 倍以上。



图 6:D2F dLLMs 实现更优异的优异的性能 - 效率权衡

总结与思考

D2F 的出现为开源 dLLMs 社区注入了新的活力,展现了 dLLMs 推理速度上的巨大潜力。通过开源代码和模型,团队希望能够激励社区投入更多的研究资源,共同推动并行解码技术走向成熟,进入更广泛的实际应用。

此外,D2F 的成功证明了 AR 和 Diffusion 并非是两种完全对立的范式。通过巧妙的混合框架设计,可以融合 AR 模型的缓存优势和 dLLMs 的并行优势,这为大模型推理优化开辟了新的道路。

未来工作:目前 vLLM 的 Async Engine (for realtime serving), CUDA Graph Capture support, optimized Kernels, hybrid parallel (DP + TP + PP) 都有待实现,欢迎感兴趣的同学跟我们联系。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳小学生“A”级评价从90分变85分?家长们不淡定了

深圳小学生“A”级评价从90分变85分?家长们不淡定了

音乐时光的娱乐
2026-02-02 15:00:54
新华社消息|伊朗总统:战争既不符合伊朗利益也不符合美国利益

新华社消息|伊朗总统:战争既不符合伊朗利益也不符合美国利益

新华社
2026-02-01 10:37:07
留学一年嘴都变大了?女留学生“面相变化图”走红

留学一年嘴都变大了?女留学生“面相变化图”走红

没有偏旁的常庆
2026-02-02 06:10:03
全球首次!宇树机器人-47.4℃极寒行走13万步:走出冬奥雪面图案

全球首次!宇树机器人-47.4℃极寒行走13万步:走出冬奥雪面图案

快科技
2026-02-01 15:37:05
有色金属行业资金流出榜:紫金矿业、北方稀土等净流出资金居前

有色金属行业资金流出榜:紫金矿业、北方稀土等净流出资金居前

证券时报
2026-02-02 17:23:06
安徽一男子参加公司年会,先后抽中10万元彩票和苹果17ProMax,活动负责人:纯运气,无暗箱操作

安徽一男子参加公司年会,先后抽中10万元彩票和苹果17ProMax,活动负责人:纯运气,无暗箱操作

台州交通广播
2026-02-01 18:08:46
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
学医后才知道,冠心病前最危险的信号,不是心脏疼,而是这5症状

学医后才知道,冠心病前最危险的信号,不是心脏疼,而是这5症状

医学科普汇
2026-01-23 09:46:27
具俊晔揭幕大S雕像哭红眼,S妈白了头,小S肿脸,儿女缺席引热议

具俊晔揭幕大S雕像哭红眼,S妈白了头,小S肿脸,儿女缺席引热议

银河史记
2026-02-02 17:05:31
两个95后华人,搞出硬件版Clawdbot,售价1700元

两个95后华人,搞出硬件版Clawdbot,售价1700元

量子位
2026-02-02 12:01:03
“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

潇湘晨报
2026-01-31 10:38:17
恩爱难抵残酷现实,向太撕开刘德华婚姻滤镜,朱丽倩承受了太多

恩爱难抵残酷现实,向太撕开刘德华婚姻滤镜,朱丽倩承受了太多

喜欢历史的阿繁
2026-01-31 15:21:28
曝40岁C罗拒为胜利出战!2大原因致其罢赛 不满引援+金主偏心新月

曝40岁C罗拒为胜利出战!2大原因致其罢赛 不满引援+金主偏心新月

我爱英超
2026-02-02 07:02:39
虽败犹荣!广东队惨败却收重大喜讯,杜锋留了一手

虽败犹荣!广东队惨败却收重大喜讯,杜锋留了一手

宗介说体育
2026-02-02 10:35:13
打脸!马斯克曾说多次拒绝爱泼斯坦,邮件内容曝光,清醒人设崩了

打脸!马斯克曾说多次拒绝爱泼斯坦,邮件内容曝光,清醒人设崩了

八斗小先生
2026-02-02 09:44:38
台湾2025人均GDP近4万美元,22年首超日韩

台湾2025人均GDP近4万美元,22年首超日韩

老马拉车莫少装
2026-02-01 21:45:43
给《太平年》演技最好的演员排个名:朱亚文第七,倪大红第三

给《太平年》演技最好的演员排个名:朱亚文第七,倪大红第三

立场影视
2026-02-02 16:45:14
2月2日人民币对美元中间价调贬17个基点

2月2日人民币对美元中间价调贬17个基点

证券时报
2026-02-02 09:31:07
特朗普:世界“很快会看到”哈梅内伊的警告是否正确

特朗普:世界“很快会看到”哈梅内伊的警告是否正确

新华社
2026-02-02 11:05:02
俞敏洪:陈行甲已到新东方报到

俞敏洪:陈行甲已到新东方报到

澎湃新闻
2026-02-02 18:06:08
2026-02-02 19:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

家居
旅游
本地
数码
军事航空

家居要闻

现代几何彩拼 智焕童梦居

旅游要闻

回家的路就是最美的风景

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

TrendForce:预计PC DRAM内存价格2026Q1将翻倍,涨幅创新高

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版