网易首页 > 网易号 > 正文 申请入驻

大模型推理8倍加速,完全无损,以Qwen3.5-27B-DFlash为例

0
分享至

前文介绍了 Qwen3.5-27B-DFlash,非常神奇

本文更进一步,深入了解一下 DFlash 技术细节


DFlash + DDTree 加速流水线 先说背景:推测解码(Speculative Decoding)

大模型生成文本的时候,最大的瓶颈是什么?一个 token 一个 token 地吐

不管你 GPU 有多猛,自回归生成就是一步一步来,快不了

推测解码(Speculative Decoding)是目前主流的加速思路:用一个小模型快速"猜"一串 token,再让大模型一次性验证。猜对了就赚了,猜错了也不亏——大模型自己纠正就行

但传统推测解码有个问题:小模型也是自回归的,猜的速度也不够快。

DFlash:用扩散模型替代自回归草稿

DFlash(Block Diffusion for Flash Speculative Decoding)来自 Z Lab,核心创新就一句话:用轻量级 block diffusion 模型,单次前向传播并行生成整个 token block 作为草稿

传统小模型一个一个猜,DFlash 一次猜一整块(block size = 16)


DFlash 方法流水线

怎么做到的?

关键技术叫 KV Injection——把目标大模型多层 hidden features 融合后注入草稿小模型的 KV cache,让小模型也能高质量预测

加速效果有多猛?

基准

模型

DFlash 加速

HumanEval T=0.0

Qwen3-30B-MoE

6.09x

MATH-500 T=0.0

Qwen3-8B

6.17x

GSM8K T=0.0

Qwen3-8B

5.20x

AIME24 T=0.0

Qwen3-8B

5.91x

MBPP T=0.0

Qwen3-8B

4.75x

对比 EAGLE-3(目前最流行的推测解码方案),DFlash 快了约 2.5 倍。EAGLE-3 的极限大概 2-3x 加速,DFlash 直接干到 5-6x

而且在采样模式(Temperature=1)和 thinking mode 下仍然保持约 4.5x 加速,这一点非常重要——大部分加速方案在有随机性的时候就拉胯了

DDTree:把 DFlash 再推一把

DDTree(Diffusion Draft Tree)是以色列理工学院 Liran Ringel 在 DFlash 基础上做的进一步优化

核心思路:DFlash 一次前向传播输出的是每个位置的概率分布。DDTree 不是从中只取一条路径,而是用 best-first heap 算法构建一棵草稿树,选出最有希望的多条分支,然后让目标模型一次前向传播验证整棵树


DDTree 四步流程:

  1. Block diffusion 一次前向生成 L 个位置的分布

  2. Best-first heap 在节点预算 B 下构建最优草稿树

  3. Tree attention 编译为目标模型输入

  4. 验证遍历:匹配子节点则继续,不匹配则取 bonus token 进入下轮

这套方案有个数学保证:构建的树在 draft 模型分布下可证明最大化期望接受长度

效果:

在 HumanEval T=0.0 上,DDTree 把 DFlash 的 6.09x 直接拉到了 8.22x,额外多赚了 2.13x。

最关键的是——完全无损。目标模型用自己的解码规则,DDTree 只是帮它更高效地探索搜索空间,输出分布和不加速时完全一致。

已支持的模型

DFlash 已经为一批主流模型训好了 Draft 模型:

目标模型

Draft 模型

Kimi-K2.5 (Preview)

z-lab/Kimi-K2.5-DFlash

Qwen3.5-4B/9B/27B

z-lab/Qwen3.5-*-DFlash

Qwen3.5-35B-A3B

z-lab/Qwen3.5-35B-A3B-DFlash

Qwen3-Coder-30B-A3B

z-lab/Qwen3-Coder-30B-A3B-DFlash

Llama-3.1-8B-Instruct

z-lab/LLaMA3.1-8B-Instruct-DFlash

Qwen3.5-122B、397B 和 GLM-5.1 的 Draft 模型也在路上了。

怎么用?

DFlash 已经接入了三大推理框架:

SGLang:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.5-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
--tp-size 1 --attention-backend trtllm_mha

vLLM:

vllm serve Qwen/Qwen3.5-27B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'

Apple Silicon(MLX):

pip install -e ".[mlx]"

对,Mac 用户也能用。

DDTree 跑基准测试:

git clone https://github.com/liranringel/ddtree
cd ddtree
pip install -r requirements.txt
bash run_benchmark.sh
python3 plot_results.py
总结

DFlash + DDTree 这对组合拳,代表了推测解码的下一个阶段:

  • DFlash 解决了"猜得慢"的问题 ——用 block diffusion 一次猜一整块

  • DDTree 解决了"猜得不够多"的问题 ——用概率树探索多条路径

最终效果是 8x+ 无损加速,而且已经接入 SGLang、vLLM、MLX 三大框架,实际可用。

对于部署大模型推理服务的团队来说,这几乎是免费的午餐——加速 5-8 倍,不牺牲任何输出质量,只需要加载一个很小的 Draft 模型

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年或将迎来史上最热一年!有人提醒:高温正在掏空普通人的积蓄

今年或将迎来史上最热一年!有人提醒:高温正在掏空普通人的积蓄

有范又有料
2026-05-29 11:07:07
惠普星Book Pro Air 14轻薄本评测:1.09kg适合通勤出差办公吗?

惠普星Book Pro Air 14轻薄本评测:1.09kg适合通勤出差办公吗?

科技健圣
2026-05-27 17:06:31
2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

职场资深秘书
2026-05-29 15:54:56
5月29日A股猛料:泼冷水!国家大基金高位批量减持释放重要信号!

5月29日A股猛料:泼冷水!国家大基金高位批量减持释放重要信号!

丁丁鲤史纪
2026-05-29 10:41:27
华为粉激动坏了!扬言韬定律已威胁到光刻机,反遭网友集体阴阳!

华为粉激动坏了!扬言韬定律已威胁到光刻机,反遭网友集体阴阳!

谭谈社会
2026-05-29 07:16:43
小米官宣“米家淋浴花洒”将于明晚8点开售:大顶喷包裹式淋浴、四种出水模式

小米官宣“米家淋浴花洒”将于明晚8点开售:大顶喷包裹式淋浴、四种出水模式

新浪财经
2026-05-29 22:09:11
胡慧中携26岁胖女儿上海同框,母女颜值差距大

胡慧中携26岁胖女儿上海同框,母女颜值差距大

荒野老五
2026-05-28 17:52:12
终于弄明白了:开空调蚊子不咬人,不是冻晕,是导航系统彻底失灵

终于弄明白了:开空调蚊子不咬人,不是冻晕,是导航系统彻底失灵

辉哥说动漫
2026-05-27 15:37:07
游客称在四川九寨沟景区照镜子时被店家索要2元“照镜费”;景区回应:已对居民批评教育,对游客表示歉意

游客称在四川九寨沟景区照镜子时被店家索要2元“照镜费”;景区回应:已对居民批评教育,对游客表示歉意

极目新闻
2026-05-28 19:43:29
中国奇观!大学导师用尺子量论文排版格式 网友嘲讽:遥遥领先

中国奇观!大学导师用尺子量论文排版格式 网友嘲讽:遥遥领先

可达鸭面面观
2026-05-29 13:02:33
老人正为儿子盖新房,给路过乞丐盛了一碗肉,不料,他却说:新房盖好后千万别住人

老人正为儿子盖新房,给路过乞丐盛了一碗肉,不料,他却说:新房盖好后千万别住人

背包旅行
2026-05-29 11:34:38
能否做到?恩里克有望成为第五位三夺欧冠冠军的主帅

能否做到?恩里克有望成为第五位三夺欧冠冠军的主帅

懂球帝
2026-05-29 12:49:23
一句"我去开空调",扯下3.7元绿幕造假的遮羞布

一句"我去开空调",扯下3.7元绿幕造假的遮羞布

BT财经
2026-05-28 12:47:07
看不懂了,亚太股市全线反弹,A股为何单边下跌?半导体芯片暴跌

看不懂了,亚太股市全线反弹,A股为何单边下跌?半导体芯片暴跌

丁丁鲤史纪
2026-05-29 11:55:37
一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

医学科普汇
2026-05-27 16:52:29
中国挖出“全球最大煤田”!够14亿人用100年,底气有多足?

中国挖出“全球最大煤田”!够14亿人用100年,底气有多足?

混沌录
2026-05-30 00:30:50
今日最惨股,失去概念,半个月暴跌55%,以为企稳了,进去又大跌

今日最惨股,失去概念,半个月暴跌55%,以为企稳了,进去又大跌

丁丁鲤史纪
2026-05-29 15:01:57
大换血!国足官宣26人集训名单,邵佳一换掉8大国脚,网友炸锅

大换血!国足官宣26人集训名单,邵佳一换掉8大国脚,网友炸锅

不写散文诗
2026-05-29 12:27:42
游客在青海戈壁公路旁偶遇“萍乡炒粉”餐车,20元一份

游客在青海戈壁公路旁偶遇“萍乡炒粉”餐车,20元一份

黄河新闻网吕梁
2026-05-27 15:47:04
李施德林漱口水口腔大屠杀:留0.1%活口传恐怖消息

李施德林漱口水口腔大屠杀:留0.1%活口传恐怖消息

娱圈观察员
2026-05-29 01:21:49
2026-05-30 01:04:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3426文章数 11162关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

亲子
数码
手机
健康
公开课

亲子要闻

为了让孩子变“超模脸”,每天徒手扩颚、暴力正颌?外国妈妈卷疯了!

数码要闻

宏碁推多款游戏新品:两款笔记本、一款串流掌机,还有键盘、背包

手机要闻

华为双箭齐发:Mate80系列618官降500元,阔比例直板新机曝光!

尝试干细胞疗法如何避免踩坑?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版