网易首页 > 网易号 > 正文 申请入驻

上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍

0
分享至

视频 1:D2F dLLMs 与同尺寸 AR LLMs 的推理过程对比示意

在大语言模型(LLMs)领域,自回归(AR)范式长期占据主导地位,但其逐 token 生成也带来了固有的推理效率瓶颈。此前,谷歌的 Gemini Diffusion 和字节的 Seed Diffusion 以每秒千余 Tokens 的惊人吞吐量,向业界展现了扩散大语言模型(dLLMs)在推理速度上的巨大潜力。然而,当前的开源 dLLMs 却因一定的技术挑战 —— 例如缺少完善的 KV 缓存机制,以及未充分释放并行潜力 —— 推理速度远慢于同规模的 AR 模型。

近期的一篇工作彻底扭转了这个局面。上海交通大学 DENG Lab 联合加州大学圣地亚哥分校(UCSD)推出Discrete Diffusion Forcing(D2F),首次使开源 dLLMs 的生成速度显著超过同等规模的 AR 模型。实验显示,D2F 模型在 GSM8K 等基准上,实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升,同时相比于原始的 dLLMs 模型实现了最高达 50 倍的加速。

本文作者团队来自上海交通大学 DENG Lab 与加州大学圣地亚哥分校(UCSD)。该研究由硕士生王旭、准硕士生徐晨开、本科生金义杰以及博士生金佳纯共同完成,指导教师为邓志杰与张浩老师。DENG Lab 隶属上海交通大学,致力于高效、跨模态生成模型的研究。

  • 论文地址:https://arxiv.org/abs/2508.09192
  • 代码地址:https://github.com/zhijie-group/Discrete-Diffusion-Forcing
  • 项目主页:https://zhijie-group.github.io/Discrete-Diffusion-Forcing/
  • 模型仓库:https://huggingface.co/SJTU-Deng-Lab/D2F_Dream_Base_7B_Lora, https://huggingface.co/SJTU-Deng-Lab/D2F_LLaDA_Instruct_8B_Lora
  • Demo 地址:https://huggingface.co/spaces/zhijie3/D2F-LLaDA-Instruct-8B

图 1:D2F dLLMs 实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升

简单来说,D2F 赋予了 dLLMs 几种关键特性:

1. 自回归 - 扩散混合架构:引入块级自回归生成,块间保持因果性,让模型能够有效利用 KV 缓存。

2. 块内 + 块间双尺度并行:引入了块内 token 间并行解码和块间并行解码,最大化并行生成潜力

3. 双状态解码:通过设计双状态的块解码流水线,最大化吞吐量。

4.更优的 tradeoff:相比原始 dLLMs,具有显著更优的性能 - 效率权衡

5. vLLM 集成:已将 vLLM 集成到 D2F 中,让推理速度更进一步

问题的根源:dLLMs 理论优势与现实瓶颈

扩散大语言模型(dLLMs)理论上具有并行生成 token 的能力,不必像 AR 模型一样逐个生成,从而在推理效率上具备巨大潜力。然而,在实践中,现有的开源 dLLMs 并未充分展现这一优势,其推理速度往往落后于 AR 模型,这个瓶颈主要源于两个基础性问题:

KV Cache 的不兼容性:标准 dLLM 依赖双向注意力机制来获取全局上下文,导致 AR 模型中常见的 KV 缓存加速技术无法直接应用于 dLLMs。在每次去噪迭代中,模型都需要重新计算所有 token 的 K、V 矩阵,造成了巨大的计算冗余。

块间解码的串行限制:为了引入缓存机制,一些工作尝试将生成过程分块(block-wise)。但这些方法通常要求严格的块间顺序,即只有前一个块必须被完全解码后,才能开始处理下一个块。这种严格的依赖使得并行生成仅限于块内而无法应用于块之间,极大地限制了整体的并行潜力。

因此,想要释放 dLLMs 的潜力,就必须同时解决 KV Cache 的兼容性与块间的并行解码问题。

D2F 的核心设计:一种自回归 - 扩散混合范式

面对上述瓶颈,D2F 的核心思想是构建一个融合自回归和扩散思想的混合范式,协同设计高效的模型架构,训练方法以及推理策略。

架构:块级因果注意力,兼容 KV Cache

为了让 dLLMs 能真正兼容 KV 缓存,D2F 将 dLLMs 中标准的双向注意力机制重塑为了块级因果注意力。具体来说:

  • 块内(Intra-block):保持标准的双向注意力,以充分利用块内的上下文信息。
  • 块间(Inter-block):使用因果注意力,即任意一个块只能关注其自身及所有在它之前的块。

这种设计在块的层面上建立了自回归的顺序。每个生成完成的块的 KV 状态被缓存并在后续复用,从而根本上解决了 KV Cache 的兼容性问题,大幅减少了冗余计算。

训练:非对称蒸馏与结构化噪声

图 2:D2F dLLMs 基于非对称蒸馏实现训练

为了避免从头训练 dLLMs 的高昂成本。D2F 使用了非对称蒸馏策略,将一个预训练好的 dLLMs 教师模型的能力,高效地蒸馏到 D2F 学生模型上。两者区别在于教师模型使用双向全注意力而学生模型使用块级因果注意力。

为了进一步解锁学生的块间并行能力,D2F 引入了单调递增的结构化噪声调度。具体而言,训练数据前向加噪过程中,序列靠前的块被施加较小的噪声而靠后的块被施加更大的噪声。这种结构化的噪声训练,其目的是为了教会学生模型如何依据部分去噪、尚不清晰的前文来预测后文。

推理:流水线并行解码

图 3:D2F dLLMs 的推理流程示意

在上述训练范式的基础上,D2F 设计了一套创新的并行解码算法:Pipelined Parallel Decoding。

该算法维护一个动态的待解码窗口,其中包括若干 tokens 块。在必要时,新块以半激活的状态进入窗口,并在前缀去噪到一定比例后转为全激活状态。这种动态添加和双状态解码的机制,确保了流水线的高效和质量。

两种状态的区别主要在于解码策略的激进程度:

  • 半激活状态(Semi-activated):只接受那些预测置信度超过某一阈值τ_conf的 token。
  • 全激活状态(Fully-activated):如果没有 token 超过置信度阈值,也会选择置信度最高的一个 token 进行解码。

视频 2:D2F dLLMs 推理过程中显式地对多个块进行并行解码

实验结果

速度提升,性能不降

D2F 给原始 dLLM 带来了最高可达 50 倍的加速,同时平均性能不下降。

图 4:D2F-LLaDA 与基线方法的对比

图 5:D2F-Dream 与基线方法的对比

优异的性能 - 效率权衡曲线

D2F 提供了一条远优于现有模型的性能 - 效率权衡曲线。通过调整解码参数,D2F 可以适应各种场景,在性能和速度之间做出灵活的选择。例如,在 MBPP 任务上,通过稍微牺牲性能,吞吐量可达 AR 模型的 4 倍以上。

图 6:D2F dLLMs 实现更优异的优异的性能 - 效率权衡

总结与思考

D2F 的出现为开源 dLLMs 社区注入了新的活力,展现了 dLLMs 推理速度上的巨大潜力。通过开源代码和模型,团队希望能够激励社区投入更多的研究资源,共同推动并行解码技术走向成熟,进入更广泛的实际应用。

此外,D2F 的成功证明了 AR 和 Diffusion 并非是两种完全对立的范式。通过巧妙的混合框架设计,可以融合 AR 模型的缓存优势和 dLLMs 的并行优势,这为大模型推理优化开辟了新的道路。

未来工作:目前 vLLM 的 Async Engine (for realtime serving), CUDA Graph Capture support, optimized Kernels, hybrid parallel (DP + TP + PP) 都有待实现,欢迎感兴趣的同学跟我们联系。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
志愿军团长嫌敌人太弱,懒得去打,因此创下战争史上的一个奇迹

志愿军团长嫌敌人太弱,懒得去打,因此创下战争史上的一个奇迹

史之铭
2026-03-31 16:48:54
合砍24分,再中6记三分!火箭队双射手撑起2阵,航天城短板变优势

合砍24分,再中6记三分!火箭队双射手撑起2阵,航天城短板变优势

熊哥爱篮球
2026-03-31 11:53:36
就在今天!3月31日,传来焦泊乔新消息,杜锋这次真该反思了

就在今天!3月31日,传来焦泊乔新消息,杜锋这次真该反思了

砚底沉香
2026-03-31 17:13:06
TA:热刺与德泽尔比的战术适配度存疑,这笔签约是场“豪赌”

TA:热刺与德泽尔比的战术适配度存疑,这笔签约是场“豪赌”

懂球帝
2026-04-01 00:35:07
苦恋6年换来丈夫背叛,大度原谅他还连生2娃,胡紫薇爱的太卑微

苦恋6年换来丈夫背叛,大度原谅他还连生2娃,胡紫薇爱的太卑微

揽星河的笔记
2026-03-31 14:41:28
大学生女歌手和金主玩得野!绿大暗签AB替身陪大佬!

大学生女歌手和金主玩得野!绿大暗签AB替身陪大佬!

八卦疯叔
2026-03-30 16:11:55
被迫床上试戏?33号远征队"女主"曝自己重大失误

被迫床上试戏?33号远征队"女主"曝自己重大失误

游民星空
2026-03-29 22:04:14
创历史!雷霆首次连两季60胜 亚历山大47分连136场20+历史第一

创历史!雷霆首次连两季60胜 亚历山大47分连136场20+历史第一

醉卧浮生
2026-03-31 12:36:31
10-8逆转!小特会师墨菲手握2优势,吴宜泽创纪录,百岁对决打响

10-8逆转!小特会师墨菲手握2优势,吴宜泽创纪录,百岁对决打响

刘姚尧的文字城堡
2026-03-31 09:58:47
科学家潜水被巨鲸“纠缠”40分钟,真相却是在救她的命!

科学家潜水被巨鲸“纠缠”40分钟,真相却是在救她的命!

英国那些事儿
2026-03-30 23:24:02
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
消息不妙,中国要警惕了,西方国家在重稀土领域已经取得突破!

消息不妙,中国要警惕了,西方国家在重稀土领域已经取得突破!

达文西看世界
2026-03-31 13:42:21
张凌赫那个高中暗恋的女孩被扒出来了!暗恋信也曝光了!

张凌赫那个高中暗恋的女孩被扒出来了!暗恋信也曝光了!

喜欢历史的阿繁
2026-03-30 18:05:49
官方:足球中国转播蒙太古杯小组赛首轮U16国少vs法国U16

官方:足球中国转播蒙太古杯小组赛首轮U16国少vs法国U16

懂球帝
2026-03-31 13:54:13
全球唯一双座隐身战机!歼-20S跨界作战有多震撼?专家解析

全球唯一双座隐身战机!歼-20S跨界作战有多震撼?专家解析

齐鲁壹点
2026-03-27 06:56:45
日媒:闯中国使馆暴徒最新供述再改口装无辜,日议员“必须道歉”

日媒:闯中国使馆暴徒最新供述再改口装无辜,日议员“必须道歉”

老糿尾声体育解说
2026-03-31 22:40:44
著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

青梅侃史啊
2026-03-28 19:22:24
警惕!基层已变成“女儿国”

警惕!基层已变成“女儿国”

霹雳炮
2026-03-30 22:22:11
国民党大佬出手!马英九当场服软、向郑丽文交底,亲美派栽大跟头

国民党大佬出手!马英九当场服软、向郑丽文交底,亲美派栽大跟头

说历史的老牢
2026-03-30 13:37:41
王思聪舅舅林友涉连杀两任妻子+雇凶杀害肢解邻居,为啥还能逍遥法外21年?

王思聪舅舅林友涉连杀两任妻子+雇凶杀害肢解邻居,为啥还能逍遥法外21年?

不二表姐
2026-03-30 23:30:07
2026-04-01 01:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12648文章数 142600关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

时尚
本地
健康
数码
军事航空

「性治疗室」里的00后,男多女少

本地新闻

用Color Walk的方式解锁城市春日

干细胞抗衰4大误区,90%的人都中招

数码要闻

联想推出YOGA AI Mini迷你主机,5499元

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版