![]()
刚刚拿下首轮500亿元融资、估值飙至3500亿元的DeepSeek,没有像外界预期那样去发布V4.1新模型,反而扔出了一份让整个AI推理工程圈子炸锅的工程方案。
6月27日,DeepSeek开源了一套推测解码框架DSpark,配套发布了训练框架DeepSpec,并同步推出DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark两个模型版本。
梁文锋亲自署名、与北京大学联合完成的论文《DSpark:基于半自回归生成的置信度调度推测解码》同时挂上arXiv。这是这家公司完成首轮外部融资后,对外打出的第一枪,而这一枪没打在模型参数上,打在了推理效率上。
![]()
不是新模型,而是让旧模型快起来的工程突破
很多人第一眼看到V4-Pro-DSpark和V4-Flash-DSpark,会以为是新模型。其实不是。Hugging Face的模型卡里说得很清楚,这两个checkpoint就是原来的V4-Pro和V4-Flash,只是在上面外挂了一个推测解码模块。底层权重没变,但跑起来的速度不一样了。
推测解码这件事,业内已经研究多年。简单说,就是先用一个小的"草稿"模型快速猜出未来若干个token,再让大的目标模型一次性验证这批token,验证通过就保留,验证不通过就丢掉。这个流程的好处是把原本一个一个token串行生成的过程,变成批量验证,理论上能省下大量GPU时间。问题在于,主流并行草稿方案在单次前向运算里能生成超长token序列,但token之间缺乏依赖关系,越往后通过率越低。对整段长候选序列无差别校验,会把宝贵的批次算力浪费在极易被驳回的token上,导致高并发服务场景下整体吞吐率大幅下降。
![]()
DSpark的做法是把高吞吐并行生成与自适应、感知负载的校验机制结合在一起。它在并行主干网络之外,再挂一个轻量串行模块,建模块内token依赖,缓解末尾通过率衰减的问题。同时引入一个置信度头加上负载感知调度器,GPU闲的时候多验证几个token,GPU忙的时候少验证一些,把算力花在刀刃上。
数字也很硬。在DeepSeek-V4线上真实流量环境下,相较生产级基线方案MTP-1,在保持整体吞吐不变的前提下,DSpark把单用户生成速度提升60%到85%(V4-Flash),V4-Pro的提速幅度是57%到78%。MarkTechPost还指出,离线评估中DSpark的accepted length相比Eagle3提升26%到31%,相比DFlash提升16%到18%。更关键的是,在严格交互时延约束下,DSpark避免了传统方案吞吐率大幅滑坡,推高了整套服务系统的帕累托最优边界。整个过程对输出质量是无损的,因为推测解码的拒绝采样规则在数学上严格保留了目标模型的分布。
国际同行怎么看:这才是2026年serving的正确姿势
DSpark一发布,海外AI infra圈反应迅速。MarkTechPost把它定性为"针对繁忙生产服务的推理加速",并特别强调了那条公式L等于(T_draft加T_verify)除以τ,认为这把推测解码的工程权衡讲得比以前所有论文都清楚。CryptoBriefing的评价更直接,认为DSpark改变了跑推理负载的成本算法,对中心化云和去中心化GPU网络都一样有冲击。
DeepSeek铁粉、X上长期追踪这家公司的Teortaxes说了一句颇有代表性的话,大意是行业一直没能把好的推测解码方案当成默认基线,搞得"幼稚地直接serve transformer,在2026年已经远远不够用了"。他认为DeepSeek之前用MTP方案推动了一波行业跟进,这次"半自回归drafting"很可能再推一波。Wey Gu指出,DeepSeek同时展示了DSpark在Gemma和Qwen等其他开源模型上同样有效,意味着这套技术不仅仅是DeepSeek自己用,而是整个开源生态的可复用基础设施。还有海外分析师把这次发布称作"V4变得更快的开源小把戏",但同时强调这件事其实比再训练一个新模型更有产业价值。
这种评价背后是一个产业判断在悄悄换挡。前两年大家比的是谁的模型参数大、谁的benchmark分数高,现在比的是谁能在生产环境里把模型跑得又快又便宜。AI的竞争已经从"模型秀肌肉"进入"serving拼工程"的阶段。当一个1.6万亿参数的MoE模型在1M上下文场景下要做单token推理,需要的算力和KV cache都是天文数字。DSpark这种工程优化,省下的就是真金白银。CryptoBriefing的算法是,同等输出质量、60%到85%的速度提升,等价于推理成本几乎砍掉一半。对所有跑在GPU上的AI产品来说,这是直接关系到能否盈利的事情。
一笔融资后的明确信号
把这次DSpark发布放到融资背景下看,意味就更清楚了。DeepSeek首轮融资规模500亿元人民币(彭博社后续披露目标可能扩大到700亿元,约合100亿美元),梁文锋个人出资最高200亿元,投后估值约3500亿元人民币(约515亿美元)。梁文锋在与投资者的会议上承诺,DeepSeek主要目标是推动技术边界而非变现,将继续开发开源AI模型并追求AGI。这笔钱主要用途是员工期权定价、提高研究员薪资、加强算力储备。
拿了500亿,第一件做的事不是发布V4.1或V5,而是开源一个推理加速框架,这个选择本身就是信号。它在告诉两件事。第一,DeepSeek的开源承诺没变。融资带来的不是闭源化,而是把更深的工程优化也放出来给社区用。第二,DeepSeek非常清楚自己的护城河在哪里。前沿模型迭代速度太快,单靠模型本身的领先很难维持估值,真正能拉开身位的是从训练到推理的全栈工程能力。DSpark和DeepSpec就是把这种能力以代码的形式公开。
V4-Pro在1M上下文设置下,单token推理FLOPs只需DeepSeek-V3.2的27%,KV cache只需10%。再叠加DSpark的60%到85%的提速,整套系统的成本结构已经被压到一个让国际同行很难追赶的水平。当一家公司能够同时把模型能力、推理成本、开源生态三件事都做到行业第一梯队,那么500亿融资的估值,就不再只是泡沫,而是市场对工程深度的真实定价。
DSpark这一枪打得很冷静,没有花哨的发布会,没有大模型评测榜单的刷分,只有一份扎实的论文和一套开源代码。但行业里的人都明白,这一枪打在了AI产业链最痛的那根神经上。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.