梁文锋发表首轮融资后第一篇论文，瞄准AI产业最痛的那根神经|算法|推理|新论文

梁文锋发表首轮融资后第一篇论文，瞄准AI产业最痛的那根神经

分享至

刚刚拿下首轮500亿元融资、估值飙至3500亿元的DeepSeek，没有像外界预期那样去发布V4.1新模型，反而扔出了一份让整个AI推理工程圈子炸锅的工程方案。

6月27日，DeepSeek开源了一套推测解码框架DSpark，配套发布了训练框架DeepSpec，并同步推出DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark两个模型版本。

梁文锋亲自署名、与北京大学联合完成的论文《DSpark：基于半自回归生成的置信度调度推测解码》同时挂上arXiv。这是这家公司完成首轮外部融资后，对外打出的第一枪，而这一枪没打在模型参数上，打在了推理效率上。

不是新模型，而是让旧模型快起来的工程突破

很多人第一眼看到V4-Pro-DSpark和V4-Flash-DSpark，会以为是新模型。其实不是。Hugging Face的模型卡里说得很清楚，这两个checkpoint就是原来的V4-Pro和V4-Flash，只是在上面外挂了一个推测解码模块。底层权重没变，但跑起来的速度不一样了。

推测解码这件事，业内已经研究多年。简单说，就是先用一个小的"草稿"模型快速猜出未来若干个token，再让大的目标模型一次性验证这批token，验证通过就保留，验证不通过就丢掉。这个流程的好处是把原本一个一个token串行生成的过程，变成批量验证，理论上能省下大量GPU时间。问题在于，主流并行草稿方案在单次前向运算里能生成超长token序列，但token之间缺乏依赖关系，越往后通过率越低。对整段长候选序列无差别校验，会把宝贵的批次算力浪费在极易被驳回的token上，导致高并发服务场景下整体吞吐率大幅下降。

DSpark的做法是把高吞吐并行生成与自适应、感知负载的校验机制结合在一起。它在并行主干网络之外，再挂一个轻量串行模块，建模块内token依赖，缓解末尾通过率衰减的问题。同时引入一个置信度头加上负载感知调度器，GPU闲的时候多验证几个token，GPU忙的时候少验证一些，把算力花在刀刃上。

数字也很硬。在DeepSeek-V4线上真实流量环境下，相较生产级基线方案MTP-1，在保持整体吞吐不变的前提下，DSpark把单用户生成速度提升60%到85%（V4-Flash），V4-Pro的提速幅度是57%到78%。MarkTechPost还指出，离线评估中DSpark的accepted length相比Eagle3提升26%到31%，相比DFlash提升16%到18%。更关键的是，在严格交互时延约束下，DSpark避免了传统方案吞吐率大幅滑坡，推高了整套服务系统的帕累托最优边界。整个过程对输出质量是无损的，因为推测解码的拒绝采样规则在数学上严格保留了目标模型的分布。

国际同行怎么看：这才是2026年serving的正确姿势

DSpark一发布，海外AI infra圈反应迅速。MarkTechPost把它定性为"针对繁忙生产服务的推理加速"，并特别强调了那条公式L等于（T_draft加T_verify）除以τ，认为这把推测解码的工程权衡讲得比以前所有论文都清楚。CryptoBriefing的评价更直接，认为DSpark改变了跑推理负载的成本算法，对中心化云和去中心化GPU网络都一样有冲击。

DeepSeek铁粉、X上长期追踪这家公司的Teortaxes说了一句颇有代表性的话，大意是行业一直没能把好的推测解码方案当成默认基线，搞得"幼稚地直接serve transformer，在2026年已经远远不够用了"。他认为DeepSeek之前用MTP方案推动了一波行业跟进，这次"半自回归drafting"很可能再推一波。Wey Gu指出，DeepSeek同时展示了DSpark在Gemma和Qwen等其他开源模型上同样有效，意味着这套技术不仅仅是DeepSeek自己用，而是整个开源生态的可复用基础设施。还有海外分析师把这次发布称作"V4变得更快的开源小把戏"，但同时强调这件事其实比再训练一个新模型更有产业价值。

这种评价背后是一个产业判断在悄悄换挡。前两年大家比的是谁的模型参数大、谁的benchmark分数高，现在比的是谁能在生产环境里把模型跑得又快又便宜。AI的竞争已经从"模型秀肌肉"进入"serving拼工程"的阶段。当一个1.6万亿参数的MoE模型在1M上下文场景下要做单token推理，需要的算力和KV cache都是天文数字。DSpark这种工程优化，省下的就是真金白银。CryptoBriefing的算法是，同等输出质量、60%到85%的速度提升，等价于推理成本几乎砍掉一半。对所有跑在GPU上的AI产品来说，这是直接关系到能否盈利的事情。

一笔融资后的明确信号

把这次DSpark发布放到融资背景下看，意味就更清楚了。DeepSeek首轮融资规模500亿元人民币（彭博社后续披露目标可能扩大到700亿元，约合100亿美元），梁文锋个人出资最高200亿元，投后估值约3500亿元人民币（约515亿美元）。梁文锋在与投资者的会议上承诺，DeepSeek主要目标是推动技术边界而非变现，将继续开发开源AI模型并追求AGI。这笔钱主要用途是员工期权定价、提高研究员薪资、加强算力储备。

拿了500亿，第一件做的事不是发布V4.1或V5，而是开源一个推理加速框架，这个选择本身就是信号。它在告诉两件事。第一，DeepSeek的开源承诺没变。融资带来的不是闭源化，而是把更深的工程优化也放出来给社区用。第二，DeepSeek非常清楚自己的护城河在哪里。前沿模型迭代速度太快，单靠模型本身的领先很难维持估值，真正能拉开身位的是从训练到推理的全栈工程能力。DSpark和DeepSpec就是把这种能力以代码的形式公开。

V4-Pro在1M上下文设置下，单token推理FLOPs只需DeepSeek-V3.2的27%，KV cache只需10%。再叠加DSpark的60%到85%的提速，整套系统的成本结构已经被压到一个让国际同行很难追赶的水平。当一家公司能够同时把模型能力、推理成本、开源生态三件事都做到行业第一梯队，那么500亿融资的估值，就不再只是泡沫，而是市场对工程深度的真实定价。

DSpark这一枪打得很冷静，没有花哨的发布会，没有大模型评测榜单的刷分，只有一份扎实的论文和一套开源代码。但行业里的人都明白，这一枪打在了AI产业链最痛的那根神经上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.