网易首页 > 网易号 > 正文 申请入驻

DeepSeek 推理提速 85%,DSpark 做对了哪两件事

0
分享至

如果你最近用过 DeepSeek 的在线对话,有没有感觉它"反应"变快了?

这不是错觉。

就在近日,DeepSeek 上线了一个名为 DSpark 的推理加速系统。官方数据很直接:在真实线上流量下,每位用户的生成速度提升了 60% 到 85%。

不是实验室里的 benchmark 游戏,是实打实能感知到的变化。

这背后是一个困扰整个行业已久的问题——大模型生成文字,本质上是一个字一个字往外"蹦"的过程。每蹦一个字,模型就要完整跑一遍前向计算。输出越长,等待越久。这个瓶颈卡了业界很久,而 DSpark 用了两把手术刀,精准切开了它。

大模型"说话"为什么那么慢

要理解 DSpark 的价值,得先理解大模型为什么慢。

LLM 生成文本的方式,可以想象成一个人在台上逐字念稿子。每念一个字,都要停下来把整篇稿子重新理解一遍,才能决定下一个字念什么。这种"一个接一个"的模式叫自回归生成,天然就是串行的。

业界早就有一个解法叫推测解码:找一个"助手"先快速猜出一串可能的字,然后让大模型一次性验证。猜对的部分直接通过,猜错的扔掉重来。助手猜得越准,加速效果越好。

但这个方案有两个长期解决不了的硬伤。

第一,助手猜字的质量不稳定。并行生成速度很快,但每个位置彼此独立,前面猜什么后面完全不知道。于是经常出现"我喜欢吃苹果手机"这种前后矛盾——单个词都对,连起来就崩。而且猜得越长,后半段质量越差,这个现象叫后缀衰减

第二,验证环节的盲目消耗。助手一口气猜出 16 个字,但其中可能有一大半都会被拒绝。把这些字打包送去大模型验证,在高并发场景下,大模型宝贵的算力就被这些"大概率被否"的候选字白白占满。结果不是加速,而是拖慢整体吞吐。

DSpark 要解决的,正是这两个核心瓶颈。

第一刀:半自回归——给并行加上"记忆"

DSpark 的第一个设计非常巧妙:它不抛弃并行的速度优势,但给并行加了一个轻量级的"记忆模块"。

具体来说,DSpark 保持一个并行主干(叫 DFlash)作为主力,一次性跑完前向计算,生成所有位置的候选 logits。然后在后面增加一个极轻的顺序头——可以是马尔可夫头或 RNN 头——在最终采样的时候,把"前一个字是什么"这个信息注入进来。

这个改动很小,但效果惊人。

实验数据显示,在 Chat 任务上,传统并行方案从第 1 个位置到第 7 个位置,候选字的存活率从 0.72 一路跌到 0.63;而加了顺序头的 DSpark,全程维持在高位,几乎没有衰减。仅仅 2 层的 DSpark,性能已经超过了 5 层的纯并行方案。

一点点"顺序信息",换来的是草稿质量的大幅提升。

第二刀:置信度调度——给系统装上"红绿灯"

草稿质量的问题解决了,但还有一个系统层面的问题:怎么决定验证多少个候选字?

传统方案是固定长度,比如每次验证 2 个。弊端很明显——系统空闲时验证太少浪费机会,系统繁忙时验证太多反而堵塞。

DSpark 的做法是:额外训练一个置信度估计头,对每个候选字预测一个"前缀存活概率"——就是如果前面的字都通过了验证,这个位置的字有多大可能也能通过。

但神经网络天然会过度自信,预测的概率往往偏高。DSpark 引入了一个叫顺序温度缩放的校准方法,把预测概率和真实接受率对齐,校准误差从百分之几压到了约 1%。

然后登场的是一个硬件感知调度器。它实时监测系统负载,结合每个字的生存概率,动态决定每个请求该验证多少个字。负载低时多验证几个,高并发时果断剪掉低置信的尾巴。

这样一来,验证预算从以前的固定 2 个,变成了动态的 4 到 6 个。关键是不需要"偷看"未来的信息——调度器用的是两步前的历史数据来做决策,严格保证了推理结果和原始模型完全一致。

线上效果:不只是更快,是更稳

DSpark 已经部署在 DeepSeek-V4-Flash 和 V4-Pro 的生产服务中,上线两周就完全替换了上一代系统。

几个硬数据:在中等服务标准下,V4-Flash 的总吞吐提升了 51%;在高标准下,上一代系统已接近崩溃,而 DSpark 的吞吐高出 661%——这个数字的意义不在于倍数本身,而在于它把一个"不可能完成"的服务档位变成了现实。

对每个用户来说,最直观的感受就是同样的模型能力下,每秒钟能看到的字数多了 60% 到 85%。

这正是 DSpark 的价值:不是让单个用户更快一点,而是把整个服务的速度-吞吐边界往外推了一圈,让过去无法兼顾的性能组合成为了可能。

开源了,但不止于代码

DeepSeek 同步开源了 DSpark 的检查点和 DeepSpec 训练仓库,包含 Eagle3、DFlash 和 DSpark 三套实现。如果你在做推理加速相关的工作,这些代码值得花时间研究。

从工程角度看,DSpark 的设计思路有一种难得的克制——不追求大而全,而是精准定位两个核心瓶颈,用最小的架构改动解决最大的问题。半自回归头的额外延迟微乎其微,但有效接受长度提升了 30%。

这种"四两拨千斤"的感觉,是工程上最让人舒服的状态。

当然,它也有局限。对于那些本身接受率就很低的复杂请求,并行草稿阶段的计算是注定浪费的,目前没有办法跳过。论文也承认,未来如果能做到"难度感知的提前退出",还有优化空间。

但就现阶段而言,DSpark 已经是推测解码领域相当完整的工程实践——算法、系统、校准、部署,每一层都做得扎实。

对于关心大模型落地的人来说,这是一个值得关注的信号:模型能力军备竞赛之外,推理效率的优化正在成为新的主战场。

如果你觉得有收获,欢迎评论、推荐给需要的朋友,还没关注的话点个关注,每周分享 AI 前沿技术解读。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄晓薇看望慰问老党员

黄晓薇看望慰问老党员

全国妇联女性之声
2026-07-01 09:54:25
外蒙古独立的影响是什么?毛主席曾两次提出收回,为何都没有成功

外蒙古独立的影响是什么?毛主席曾两次提出收回,为何都没有成功

凡人侃史
2026-06-13 16:35:21
曝韩红退出公益行业仅1天,再迎2大“噩耗”,荒唐的一幕发生

曝韩红退出公益行业仅1天,再迎2大“噩耗”,荒唐的一幕发生

做一个合格的吃瓜群众
2026-07-01 15:15:52
光纤光缆产能持续承压 机构称光纤供应短缺的局面或将维持

光纤光缆产能持续承压 机构称光纤供应短缺的局面或将维持

财联社
2026-07-01 08:09:23
西方战略专家终于说实话:中国是全球唯一强得悄无声息的超级大国

西方战略专家终于说实话:中国是全球唯一强得悄无声息的超级大国

观察者海风
2026-07-01 11:50:53
廖碧儿70岁新欢身份曝光,任上市公司董事,曾娶港姐为妻有仨子女

廖碧儿70岁新欢身份曝光,任上市公司董事,曾娶港姐为妻有仨子女

甜柚叙事
2026-06-30 13:22:39
彻查!信号强烈!中央升级反腐“天网”!

彻查!信号强烈!中央升级反腐“天网”!

细说职场
2026-06-30 16:32:50
63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

落雪听梅a
2026-06-29 20:03:38
又一支冠军球队解散!把锋线主力卖给山西,爆料:夺冠奖金还没发

又一支冠军球队解散!把锋线主力卖给山西,爆料:夺冠奖金还没发

锐评利物浦
2026-07-01 14:42:08
国内油价或再大跌,7月1日95、92号汽油今日价格,7月3日将调整

国内油价或再大跌,7月1日95、92号汽油今日价格,7月3日将调整

阿芒娱乐说
2026-07-01 14:53:52
日元崩了!一美元兑162日元,全日本开始不安,可这剧本看着眼熟

日元崩了!一美元兑162日元,全日本开始不安,可这剧本看着眼熟

菁菁子衿
2026-06-30 19:47:30
上海这家医院的院长门诊从不限号,只为从“癌王”手里抢夺更多生命

上海这家医院的院长门诊从不限号,只为从“癌王”手里抢夺更多生命

上观新闻
2026-07-01 07:05:32
波切蒂诺曾后悔接手美国队:签合同的时候太天真了

波切蒂诺曾后悔接手美国队:签合同的时候太天真了

星耀国际足坛
2026-07-01 13:44:35
保时捷女销冠再夺冠:否认潜规则,真诚是必杀技,将冲全球榜

保时捷女销冠再夺冠:否认潜规则,真诚是必杀技,将冲全球榜

金子从天降
2026-07-01 15:20:34
苹果涨价,要求已预付消费者补差价!还有人“包裹被召回”!回应来了…

苹果涨价,要求已预付消费者补差价!还有人“包裹被召回”!回应来了…

北京商报
2026-07-01 01:41:06
保送进决赛?荷德爆冷出局让法国成最大赢家,半区已无强力对手

保送进决赛?荷德爆冷出局让法国成最大赢家,半区已无强力对手

衣衫褴褛的文人
2026-06-30 14:46:33
中国女排14人名单被曝,香港站比赛时间出炉,赵勇为亚锦赛试阵容

中国女排14人名单被曝,香港站比赛时间出炉,赵勇为亚锦赛试阵容

体育大学僧
2026-07-01 09:30:32
群演发视频吐槽王姓明星:骂助理,找替身,1米8的身高上不去马?

群演发视频吐槽王姓明星:骂助理,找替身,1米8的身高上不去马?

吃瓜蒙主
2026-07-01 06:20:03
博格丹加盟火箭,阵容适应性不强,火记对这笔交易持怀疑态度

博格丹加盟火箭,阵容适应性不强,火记对这笔交易持怀疑态度

大漠风光
2026-07-01 13:21:59
改革、重组,中国央国企马上要迎来一场大洗牌?

改革、重组,中国央国企马上要迎来一场大洗牌?

时尚的弄潮
2026-06-28 12:01:37
2026-07-01 16:07:00
程序员高手之路
程序员高手之路
探索AI前沿科技,关注IT技术与职场,一起开阔眼界,提升认知,突破圈层
107文章数 167关注度
往期回顾 全部

科技要闻

AI写了90%代码,大厂程序员的煎熬时刻

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

艺术
游戏
亲子
公开课
军事航空

艺术要闻

这5件2026届毕业油画作品,被中国美术学院美术馆收藏

噬血代码2全新DLC官宣!废弃世界与新战斗就在今夏

亲子要闻

人人皆可烹饪,厨师不分出身

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊代表前往多哈 谈判方式出现"重大倒退"

无障碍浏览 进入关怀版