网易首页 > 网易科技 > 网易科技 > 正文

DeepSeek再放大招,推理速度狂飙85%,怎么做到的?

0
分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

6月27日,DeepSeek公开DSpark技术报告和DeepSpec代码库。DeepSeek-V4的底座模型没有变,新增的是一个服务端推测解码模块:DSpark。

DeepSeek在Hugging Face模型页里把话说得很直白:V4-Pro-DSpark和V4-Flash-DSpark"不是新模型"。这两个页面指向的是同一个模型检查点,加上推测解码模块后的服务版本。

这意味着,DSpark没有让模型突然变聪明。它瞄准的是模型上线之后,怎样更快、更便宜地把答案吐出来。

技术报告称,DSpark已部署在DeepSeek-V4的线上服务系统中。在真实用户流量下,相比此前的MTP-1生产基线,也就是DeepSeek上一代线上推测生成方案,V4-Flash的每用户生成速度提升60%到85%,V4-Pro提升57%到78%,前提是匹配吞吐条件。

这里的"快"也要收住口径。它主要指生成阶段,也就是模型持续输出token的那一段速度,不等于所有用户请求的端到端响应时间都同步快了85%。 长提示词的预填充、检索、工具调用、排队和网络延迟,仍然会影响用户实际等多久。

模型上线后,还有一笔推理账

这件事没有新模型发布热闹,但它更接近AI公司每天面对的现实:模型训练完之后,成本没有结束。

聊天机器人、代码助手、智能体和搜索式产品,每一次调用都在继续消耗GPU时间。模型慢一点,用户等得久一点;推理贵一点,厂商就更难把高质量模型开放给更多场景。

AI行业过去两年更习惯讨论训练成本:一家公司要买多少GPU、建多大的集群、花多少钱训练下一代模型。但模型真正变成产品之后,另一类成本会不断冒出来:推理。

训练像一次大工程,推理更像水电费。 只要用户还在问问题、智能体还在跑任务、代码助手还在生成补丁,模型就要继续消耗算力。

大模型服务最后都会回到两个指标:速度和单位token成本。API定价页面通常按输入token和输出token收费,企业内部也会把不同模型、缓存、路由和上下文长度拆成成本项。

DSpark不能直接等同于降价,但如果同样的GPU集群能在相近吞吐下让用户更快拿到答案,它意味着同样的硬件可以服务更多用户,或者同样的用户体验可以用更少的卡来提供。

"先猜,再验"

推测解码的思路,可以粗略理解成"先猜,再验"。

大模型生成文本时,通常是一个token接一个token往外吐。前一个token出来,后一个token才知道该接什么。这种方式稳,但慢。推测解码会让一个更轻的草稿模块提前猜出一段候选token,目标大模型再批量验证。猜对的部分直接接受,猜错的位置再修正。

小模型不能替大模型做决定。最终接受哪些token,仍然由目标模型校验;正确实现下,它改变的是生成方式,不改变目标模型的输出分布。 加速来自让大模型批量验证候选,而非逐步生成。

DSpark改的,是草稿怎么生成

论文没有只停在"先猜,再验"这层解释。它重点处理了草稿怎么生成。

现有的草稿策略大致分两类。自回归草稿器更稳,因为后一个token会看见前一个token,但草稿变长,延迟也就跟着上去。而并行草稿器更快,可以一次猜出一整段,但每个位置各猜各的,后面的token容易和前面脱节,接受率越往后越容易下滑。

DSpark选择折中。 论文题目里的关键词是"半自回归生成(Semi-Autoregressive Generation)",它先用并行方式提出一段候选,再用一个轻量顺序层修正后续token的条件关系。这样既保留并行生成的速度,又让后面的候选能看到前面已经猜了什么。

另一个关键点,是验证多长一段。

候选token猜得越多,不一定越省。如果明知道后半段很可能被拒绝,还交给大模型验证,就是把GPU时间花在低价值位置上。DSpark会看候选的置信度,也看当前系统负载,动态决定验证长度。 GPU空一些,可以多验;负载高时,就把算力留给更可能被接受的部分。

论文标题里的"置信度调度(Confidence-Scheduled)",说的就是这件事。

DSpark站在已有技术路线之上

DSpark站在推测解码已有路线之后,更像是DeepSeek把这条技术路线推到线上服务后的公开参照。

SpecInfer早在2023年就把小模型预测、token树(token tree)和并行验证放进大模型服务系统里;Medusa在2024年提出给模型加多个解码头,一次预测多个后续token;EAGLE系列则围绕草稿模型和动态草稿树(draft tree)继续提高接受率。vLLM、SGLang、TensorRT-LLM这类推理框架,也早就把推测解码当作降低延迟的重要工具。

DSpark的位置,在于它把几个生产问题放到一起处理:草稿怎么生成,候选怎么保持连贯,验证长度怎么随负载变化,线上真实流量下速度到底能提高多少。

论文里反复出现的关键词,也从"模型能力提升"转向每用户生成速度(per-user generation speed)、匹配吞吐(matched throughput)、服务等级协议(SLA)这些服务侧词汇。

这也解释了为什么不能只挑最大的数字看。论文里确实还有661%、406%这样的高倍吞吐数据,但它们来自更严苛的每用户速度目标:在那种设定下,旧基线本身已经接近服务能力的边界,DSpark的相对优势会被放大。

真正能说明常态收益的,还是前面那组数字:匹配吞吐、真实流量分布、对比对象是MTP-1。

DeepSpec能复现什么

DeepSeek同时开源了DeepSpec。这是一套用于训练和评估推测解码草稿模型的代码库,包含数据准备、训练和评估流程,也放出了Qwen3、Gemma等模型上的相关检查点。

不过,开源不等于"下载即复现"。 项目文档里提示,默认Qwen3-4B配置下,目标模型缓存可能接近38TB;默认训练脚本假设单节点8张GPU;如果要对齐论文结果,训练设置必须严格一致,特定领域还需要对草稿模型做额外微调。

外界可以验证方法的一部分,也可以把DeepSpec移植到其他开源模型上,但DeepSeek-V4线上服务里的那组速度提升数字,仍然来自DeepSeek自己的硬件规模、流量分布和生产系统调度。

开源的是方法,不是环境。

社区最关心的是复现边界

X上的讨论没有停在叫好,更像一群工程师在追问:这套办法到底怎么跑、能不能复现、边界在哪里。

AI研究者Ravid Shwartz Ziv把DSpark概括为两类草稿器的折中:并行草稿器快,但接受率沿候选块衰减;自回归草稿器稳,但延迟随草稿长度上升。他特别提到DSpark加入的两个组件:置信度判断头和负载感知调度器,并补了一句关键边界:"和所有推测解码一样,它是无损的。"

工程师更关心的是能不能跑起来。vLLM贡献者Rafael Caricio称自己在双DGX Spark GB10上把DeepSeek-V4-Flash的DSpark模式跑通,单流解码约60 tok/s,大约是MTP-1的1.5倍。

他同时提到,真实代码会话暴露了合成基准测试看不到的问题:瓶颈不只是计算核心的速度,而是长上下文下草稿接受率会明显下滑。

Tech2Wild也给出了相近方向的现场数据,显示V4-Flash-DSpark已有人在特定vLLM环境里试跑。但这类结果高度依赖硬件型号、框架补丁版本、上下文长度和并发设置,换一套环境结果可能完全不同。

也有人专门提醒边界。AcingAI在X上指出,DeepSeek报告里的高倍数仍然是"自家硬件、自家MTP-1基线、匹配吞吐条件下"的结果,外部尚未完整复现。

这提醒我们,DSpark的一部分优势来自负载感知调度,而调度效果天然依赖生产环境的流量规模和硬件配置。

同样的能力,更少的算力

南华早报在6月28日的报道中,把DSpark放在推理瓶颈、芯片压力和用户等待时间里看。这个角度比"DeepSeek又发了什么模型"更接近产品现实。

AI公司还会继续比模型能力,但当能力差距被压缩,谁能把同样的能力更快、更便宜地交付出去,也会成为竞争的一部分。

DeepSeek这类公司尤其需要把这件事讲清楚。DeepSeek一直把低成本、高效率作为外界理解它的重要入口,从模型训练叙事到API价格,最被关注的不是它有没有再堆一个更大的参数规模,而是它能不能把同等能力做得更便宜。

DSpark延续的正是这条线:它不证明V4突然更聪明,它证明V4在服务用户时可以少浪费一部分推理算力。

如果把视角再放宽一点,推理优化也会影响开源模型生态。开源模型过去常被认为"便宜",但真正部署时,显存、吞吐、并发、延迟和运维复杂度都会变成成本。

一个模型能开源,只说明大家能拿到它;能不能便宜地服务大量用户,还要看推理栈能不能跟上。

DeepSpec放出Qwen3、Gemma等检查点,说明这件事已经不只停在DeepSeek-V4自己身上。迁移到什么程度,还要看社区适配、框架支持和硬件兼容的实际进展;但从目前公开信息看,DeepSeek已经让这条路线走出了自家模型。

DSpark的价值就在这里。它给V4增加了一层更接近生产系统的推理服务工具,而不只是一个新能力标签。

接下来值得看的,已经不止是DeepSeek自己能跑多快,还包括这条路线能被多少人走通。DeepSpec已经放出检查点和训练流程,推测解码正在从一家公司的工程选择,变成开源推理降低成本的通用手段,前提是其他框架和硬件能跟上。

相关推荐
热点推荐
男篮出征名单敲定,高诗岩跻身十二人轮换,赛场先发雏形清晰

男篮出征名单敲定,高诗岩跻身十二人轮换,赛场先发雏形清晰

云隐南山
2026-06-29 19:57:18
这场对决的含金量不言而喻,取胜一方便可稳固世界第一排名,

这场对决的含金量不言而喻,取胜一方便可稳固世界第一排名,

小光侃娱乐
2026-06-29 12:16:40
电车开了3000公里后,我终于敢说:开电车跑高速,记住这几点就够

电车开了3000公里后,我终于敢说:开电车跑高速,记住这几点就够

三农老历
2026-06-28 12:22:10
美国大满贯三大冷门:林昀儒一轮游,覃予萱0-3,国乒3人输球

美国大满贯三大冷门:林昀儒一轮游,覃予萱0-3,国乒3人输球

格斗社
2026-06-29 13:36:03
中方亮出铁证,上千美军机已行动,美政府不再掩饰,公然遏制中国

中方亮出铁证,上千美军机已行动,美政府不再掩饰,公然遏制中国

独舞独舞
2026-06-29 23:45:14
扎心痛啊!70岁赵雅芝舞台无美颜生图曝光,手臂衰老的状态太真实

扎心痛啊!70岁赵雅芝舞台无美颜生图曝光,手臂衰老的状态太真实

火山詩话
2026-06-28 14:53:04
阿斯:世界杯后奥利塞将与拜仁会谈,了解俱乐部对自己的想法

阿斯:世界杯后奥利塞将与拜仁会谈,了解俱乐部对自己的想法

懂球帝
2026-06-29 22:23:04
史上唯一被灭绝的民族,因过于凶残被各族联合剿杀,名字很耳熟!

史上唯一被灭绝的民族,因过于凶残被各族联合剿杀,名字很耳熟!

小莜读史
2026-06-24 13:27:56
“卖铲子”给内存厂的中国公司,已拿下全球45%的份额,全球第一

“卖铲子”给内存厂的中国公司,已拿下全球45%的份额,全球第一

科技专家
2026-05-12 16:58:33
64GB+1TB!新机官宣:6月29日,正式首销

64GB+1TB!新机官宣:6月29日,正式首销

科技堡垒
2026-06-28 12:45:36
挖坑啊!某高校招生专业把机械自动化、人工智能和古生物学放一起

挖坑啊!某高校招生专业把机械自动化、人工智能和古生物学放一起

火山詩话
2026-06-28 08:47:41
美国历史课本里的中国,1000多页只给中国20页,介绍了6位中国人

美国历史课本里的中国,1000多页只给中国20页,介绍了6位中国人

文史达观
2026-06-29 15:12:44
美女跳高运动员胡麟鹏宣布婚讯:普通人普通爱情,我很满足

美女跳高运动员胡麟鹏宣布婚讯:普通人普通爱情,我很满足

懂球帝
2026-06-29 14:17:09
赵露思只能右脸出镜!张柏芝和前夫多次深度交流!

赵露思只能右脸出镜!张柏芝和前夫多次深度交流!

八卦疯叔
2026-05-30 13:19:59
法网亚军温网首轮出局,赛点摔倒脚踝受伤葬送好局

法网亚军温网首轮出局,赛点摔倒脚踝受伤葬送好局

体坛观察猿
2026-06-30 00:06:19
瞒不住了!台海都是假象,美国真正的恶仗,已经打到中国家门口

瞒不住了!台海都是假象,美国真正的恶仗,已经打到中国家门口

小樾说历史
2026-06-28 12:04:30
45岁马苏与40岁江疏影同框,戳穿整容行业真相

45岁马苏与40岁江疏影同框,戳穿整容行业真相

凉了时光人
2026-06-29 15:19:53
以色列的重大胜利黎巴嫩将彻底铲除真主党

以色列的重大胜利黎巴嫩将彻底铲除真主党

海子侃生活
2026-06-28 09:49:22
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
A股:股民系好安全带了,不管你现在几成仓,今天6.29请听我一句

A股:股民系好安全带了,不管你现在几成仓,今天6.29请听我一句

股侠指北针
2026-06-29 12:40:18
2026-06-30 00:48:49

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

本地
数码
艺术
亲子
旅游

本地新闻

贵州小城的新目标:举办“村超”世界杯!

数码要闻

珂芝三模矮轴机械键盘i98上市,首发价329 / 369元

艺术要闻

16幅 冉茂芹小幅风景油画写生

亲子要闻

产检发现这种先天缺陷,有救了!柳叶刀重磅

旅游要闻

“独角牛” 成团宠,影视 IP 为文旅注入 “牛” 动力

无障碍浏览 进入关怀版
×