网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek V4更新DSpark,推理速度提升80%

0
分享至



编辑|泽南、杨文

刚刚,DeepSeek V4 进行了一次更新。

新推出了投机解码(Speculative Decoding)框架DSpark,并同步开源了支撑该版本的全栈推测性解码框架DeepSpec

DeepSeek-V4-Pro-DSpark 并非全新架构模型,而是在 DeepSeek-V4-Pro 基础上引入了推测性解码模块。此次更新的重点在于工程落地,而非模型能力本身的迭代。

DSpark 已被部署在 DeepSeek-V4(Flash 和 Pro)的真实线上流量中,大幅加速了大语言模型(LLM)的推理速度。



  • 技术报告:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
  • 技术报告链接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSpark 的核心初衷是解决在生产环境中(尤其是高并发场景下)LLM 推理面临的延迟和吞吐量瓶颈。简而言之,DSpark 成功地将高吞吐量的「并行生成」与自适应的「负载感知验证」结合在了一起。

推测性解码是一种在不改变模型输出分布的前提下加速大语言模型推理的技术。其核心思路是引入一个轻量级的「草稿模型」(draft model),预先生成若干候选 token,再由目标模型(target model)对这批候选进行批量验证和接受,从而将串行逐 token 生成转变为并行批量校验,大幅降低端到端延迟。

在此基础上,DSpark 的创新在于引入半自回归生成架构(Semi-Autoregressive Generation):它保留并行草稿模型的高吞吐优势,同时加入轻量级串行模块,对 block 内 token 之间的依赖关系进行建模,以缓解并行草稿模型在后续位置上容易出现的接受率衰减问题。

除此之外还有硬件感知的置信度调度验证(Confidence-Scheduled Verification):以往的投机解码通常会盲目地把生成的草稿 Token 全部送去验证,在系统高负载时,这些极大概率会被拒绝的尾部 Token 会严重浪费宝贵的批处理算力。DSpark 引入了一个置信度头(Confidence Head)来评估每个 Token 的存活概率。结合硬件感知前缀调度器,系统能够根据实时的引擎吞吐量特征,动态为每个请求量身定制最优的验证长度,将算力只分配给预期回报最高的 Token。

为了在真实的线上基础设施中落地,DSpark 的调度器采用了异步机制,以兼容零开销调度(ZOS)和连续的 CUDA 图回放。它利用前两步的历史预测来决定当前的动态截断长度,从而隐藏了调度延迟,避免了 GPU 流水线停顿,同时保证了目标模型输出分布的完全无损还原。



在涵盖数学推理、代码生成和日常对话等多个领域的测试中,DSpark 大幅超越了目前最先进的自回归模型(Eagle3)和并行草稿模型(DFlash)。例如,在 Qwen3 系列(4B、8B、14B)目标模型上,其平均接受长度比 Eagle3 提升了 26.7% 到 30.9%,比 DFlash 提升了 16.3% 到 18.4%。



相比于前一代部署的单 Token 生产基准(MTP-1),在维持相同总体吞吐量的情况下,DSpark 将用户的生成速度分别提升了 60%-85%(Flash 模型)和 57%-78%(Pro 模型)



随 DSpark 一同开源的还有 DeepSpec,这是一个用于训练和评估推测性解码草稿模型的全栈代码库。是承载这个方案以及其他前沿算法实现的「开源基础设施」,包含数据准备工具、草稿模型实现、训练代码和评估脚本。

DeepSpec 将整体流程拆分为三个阶段:数据准备、训练和评估。三个阶段需要按顺序运行,前一阶段的输出会作为后一阶段的输入。

数据准备阶段,需下载提示词数据、使用推理引擎对目标模型重新生成答案,并构建目标缓存(target cache)。值得注意的是,以默认的 Qwen/Qwen3-4B 配置为例,目标缓存体积可达约 38 TB,使用前需充分评估存储资源。

训练阶段可通过 bash scripts/train/train.sh 启动。该脚本会调用 train.py,并为每张可见 GPU 启动一个 worker。用户可以通过指定 config_path,在 config/ 目录下选择不同算法和目标模型配置。项目也支持通过覆盖 config_path、target_cache_dir,以及使用 --opts 修改单个配置字段来调整训练设置。

硬件方面,DeepSpec 默认配置和脚本面向单节点 8 卡环境。如果 GPU 数量较少,用户需要相应减少 CUDA_VISIBLE_DEVICES 中的可见 GPU 数量。

评估阶段则通过 bash scripts/eval/eval.sh 启动。评估脚本会使用训练好的草稿模型 checkpoint,在多个 speculative decoding 基准任务上衡量接受情况。项目当前列出的评估数据集包括 GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca 和 Arena-Hard-v2,覆盖数学推理、代码生成、对话能力和综合问答等不同任务类型。

算法方面,DeepSpec 目前内置三种草稿模型:DSpark、DFlash 和 Eagle3。目标模型系列方面,项目当前支持 Qwen3 和 Gemma。

DeepSpec 的开源,将推测性解码这一此前多散落于各研究团队内部的工程实践,整合为一套可复现、可扩展的标准化工具链。对于希望为自有大模型加速推理的研究者和工程师而言,这意味着可以直接在成熟框架上训练定制草稿模型,跳过大量重复的基础设施搭建工作。

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpe

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西太平洋中俄轰炸机编队遭美日拦截,歼16迎战F35

西太平洋中俄轰炸机编队遭美日拦截,歼16迎战F35

夏末moent
2026-06-28 18:41:47
1-4,大连英博送申花近8轮首胜,斯坦丘破门后伤退,后防线如漏勺

1-4,大连英博送申花近8轮首胜,斯坦丘破门后伤退,后防线如漏勺

替补席看球
2026-06-28 21:02:37
伊朗为什么宁愿自己挨炸,也不愿放弃黎巴嫩真主党?

伊朗为什么宁愿自己挨炸,也不愿放弃黎巴嫩真主党?

春夫杂谈
2026-06-26 19:28:20
女孩高考后产子,宁死不肯说孩子父亲是谁,父母查清真相后崩溃哭

女孩高考后产子,宁死不肯说孩子父亲是谁,父母查清真相后崩溃哭

手工制作阿爱
2026-06-28 19:23:23
就在明天!半导体零部件龙头来了

就在明天!半导体零部件龙头来了

21世纪经济报道
2026-06-28 17:29:22
37批食品上黑榜,淘宝拼多多居首,两千万级网红店铺查出兽药残留

37批食品上黑榜,淘宝拼多多居首,两千万级网红店铺查出兽药残留

流史岁月
2026-06-27 19:00:03
人活到最后,真正能给你幸福的,只有这4件事

人活到最后,真正能给你幸福的,只有这4件事

金沛的国学笔记
2026-06-27 17:43:49
5700万,再见勇士!被摆上交易货架不意外,但这次你难拯救自己

5700万,再见勇士!被摆上交易货架不意外,但这次你难拯救自己

呆哥聊球
2026-06-28 16:06:28
少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

许三岁
2026-06-14 09:57:24
原来他们是两口子,曾大红大紫却丁克一辈子,如今都住上海养老院

原来他们是两口子,曾大红大紫却丁克一辈子,如今都住上海养老院

叹为观止易
2026-06-28 05:42:57
深度 | 【玻璃基板】产业链,设备材料端 8 大核心龙头

深度 | 【玻璃基板】产业链,设备材料端 8 大核心龙头

飞跑的鹿
2026-06-28 20:05:07
封神!穆里尼奥一针见血!力挺世界杯无敌的皇马王牌

封神!穆里尼奥一针见血!力挺世界杯无敌的皇马王牌

一隅非生
2026-06-28 08:35:06
悉尼大学发布紧急禁令!全面终止与“非友好国家”一切合作

悉尼大学发布紧急禁令!全面终止与“非友好国家”一切合作

澳洲红领巾
2026-06-26 15:27:31
林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

可读
2026-06-25 23:21:52
委内瑞拉地震时海滩裂开画面曝光:沙滩液化流动,地表多处撕裂

委内瑞拉地震时海滩裂开画面曝光:沙滩液化流动,地表多处撕裂

新京报
2026-06-28 14:14:33
“A妹”晒自拍却不慎走光,一张照片全网疯传,3.6亿粉丝看光光

“A妹”晒自拍却不慎走光,一张照片全网疯传,3.6亿粉丝看光光

星野娱乐天地
2026-06-26 18:52:42
2026年养老金要大变!看懂新规,不吃亏!

2026年养老金要大变!看懂新规,不吃亏!

职场资深秘书
2026-06-28 19:48:35
淘汰赛首战:南非VS加拿大,比分精准预测,悬念还是挺大的

淘汰赛首战:南非VS加拿大,比分精准预测,悬念还是挺大的

宝哥精彩赛事
2026-06-28 12:16:08
克洛普:梅西、C罗和萨拉赫都不完美,但比我们更接近完美

克洛普:梅西、C罗和萨拉赫都不完美,但比我们更接近完美

懂球帝
2026-06-28 21:27:47
突发!香港知名女星再曝离婚,近年来潜心修佛面色红润

突发!香港知名女星再曝离婚,近年来潜心修佛面色红润

情感大头说说
2026-06-28 17:23:48
2026-06-28 21:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13379文章数 142681关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

C罗变了连续7场没过人 淘汰赛将对战老队友莫德里奇

头条要闻

C罗变了连续7场没过人 淘汰赛将对战老队友莫德里奇

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

健康
时尚
家居
亲子
数码

“无糖汤圆”是否隐藏着健康陷阱?

夏天裙子不用买多,建议入手一条蓝裙子,清爽高级又耐看

家居要闻

绿意盎然 自然之境

亲子要闻

肠道真菌菌群紊乱增加儿童过敏风险

数码要闻

烧毁史上最惨RTX 5090!16针接口炸无踪影 GPU和显存全毁

无障碍浏览 进入关怀版