DSpark推理速度提升80%后，OpenAI宣布新方法将推理成本降低了一半|openai|dspark|chatbot

DSpark推理速度提升80%后，OpenAI宣布新方法将推理成本降低了一半

2026-07-02 20:59:15　来源: AI科技评论

广东举报

分享至

OpenAI 上市前，提高软件效率的价值可能与构建更强的 AI 模型不相上下。

作者丨张进

编辑丨马晓宁

近日，《The Information》独家消息称，六月早些时候，OpenAI 工程师开发了一种优化技术，将应用该优化技术的模型的推理成本降低了一半。

据说，当工程师们将这项新技术应用于为未登录访客提供 ChatGPT 服务时，它在某个时刻将所需的英伟达 GPU 数量降至仅仅几百块。这是一个惊人的低数字，不过 OpenAI 从这类用户那里得到的 ChatGPT 使用量可能不大，因为公司限制了这些用户使用 chatbot 的额度。

这很重要，因为推理而非训练现在依然是前沿 AI 实验室和每个 AI 公司最大的持续开支，每条提示、每个 API 调用和每个 AI agent 操作都要经过推理。

如果将这项推理技术扩大应用于登录用户的请求流量范围，影响将是巨大的，意味着 OpenAI 能因此拥有更高的利润率、运营成本降低以及减少对 GPU 的依赖，对于用户来说更多的免费使用或者更便宜的 API。

对于一家正在推动上市的公司而言，提高软件效率的价值可能与构建更强大的 AI 模型不相上下。

只是量化？

不过，OpenAI 并未公开优化方案的具体技术细节，业内猜测可能是基于一些公开的研究成果，例如推测性解码、 FlashAttention、vLLM 的 PagedAttention 等方案。

对于 OpenAI 这种不公开细节的“宣传”方式，有网友认为只不过是一次模型量化，一种常见的优化手段。

量化是降低模型推理成本最直接有效的方法，几乎所有高效推理引擎都内置了量化支持。模型量化就是把模型的权重从高精度（比如FP32）压缩到低精度（比如INT8），目的是缩小模型体积、降低计算需求和能耗。

例如模型大小减少 75%（从 280GB 变成 70GB），显存占用更小；GPU 读取权重的速度快了，因为数据量少了 4 倍，同样的带宽能更快传输；硬件层面 INT8 整数乘法比 FP32 浮点乘法快得多，现代 GPU 有专门的 INT8 计算单元。综合这三个效果，单个 token 的生成速度能提升 2-4 倍，推理成本可以降低 50-70%。

除模型量化外，常见的优化手段还有键值缓存、请求批量处理、调度请求至低功耗轻量化模型或模型子模块来完成应答等，分别作用于模型推理流程的不同阶段。

还有人猜测他们使用的很可能是基于公开的研究成果，例如投机解码、FlashAttention、vLLM 的 PagedAttention，这几种方法都可以显著提高推理效率。

投机解码是用更小/更快的模型生成多个候选 tokens，再用大模型验证，而不是逐个生成，可以实现 2 倍以上的速度提升，特别是对长序列生成，以此减少大模型的推理次数。

FlashAttention 的原理是重新设计注意力机制的计算流程，减少 GPU 内存访问，将注意力计算的时间复杂度从 O(N²) 优化，速度快 2-4 倍，使得模型有更高的 GPU 利用率，也能让硬件能处理更多请求。

vLLM 的 PagedAttention 则是将 KV 缓存按"页"管理，类似操作系统的虚拟内存，避免内存碎片浪费，有效降低每个请求的 GPU 成本，显著提高了 GPU 利用率。

相对于 OpenAI 这种“欲说还休”的姿态，DeepSeek 则早于 OpenAI 几天推出了一种全新的投机解码方法 DSpark，实现了 V4 模型每位用户推理速度 60%-85% 的提升，且无需重新训练任何模型权重。

如何提高推理效率，是 AI 公司必须解决的问题

这项研究由 DeepSeek 和北京大学共同完成，论文标题为《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》（DSpark：基于置信度调度的投机解码与半自回归生产）。

这是一种在不改变输出结果的前提下提升生成速度的标准方法，其原理是通过筛选“无需验证”的内容来加速 LLM 推理。提升投机解码（speculative decoding）速度有三个关键因素：加快草稿生产速度、提高接受率或降低验证成本。DSpark 优化了后两个。

具体流程是，构建一个轻量级的草稿模型（draft model）预先预测出后续的若干个 token，随后完整模型（full model）一次性验证这些预测结果，并保留其中匹配的最长序列。由于该验证过程采用了拒绝采样（rejection sampling），最终生成的文本与大模型独立生成的结果完全一致。

DSpark 真正的作用并不是用一个“更快的草稿模型”先随便生成答案/猜测，而是在众多可能猜测中，判断哪些猜测值得后续去验证。因此，整个过程关键的两点是生成的草稿质量和更智能的验证。

该成果于 2026 年 6 月 27 日发布，适用于 V4 Flash 和 Pro 模型。已在 MIT 许可证下开源，DeepSeek 还展示了 DSpark 在 Gemma 和 Qwen 等其他模型上的良好表现。

在 DSpark 实现了 V4 模型每位用户推理速度 60%-85% 的提升的同时，DeepSeek 宣布 V4 正式版发布后，将同步调整 API 定价策略，引入峰谷定价机制。

根据公布的价格方案，API 高峰时段价格将为平时价格的 2 倍，而高峰时代几乎覆盖了上班时间。相比一刀切的涨价或者限流定价策略，DeepSeek 引入的峰谷定价机制本质上是用价格杠杆替代容量约束，在保留用户的前提下优化资源利用率，是一种提升利润率的精细化商业策略。

半个月前，DeepSeek 完成了首轮外部融资，融资金额 510 亿元，同月发布开源推理加速框架 DSpark，引入峰谷定价机制。结合一系列动作来看，DeepSeek 在传递一个清晰的行业信号：AI 的低价时代，正在谢幕。

从 ChatGPT 爆发以来，AI 改变了世界的一部分。而训练一个顶级模型的成本动辄上亿美元，后续的推理费用也不便宜，一个用户每个月享受到的服务，可能远超付出的价格。

今天，无论是 OpenAI，还是 DeepSeek，探索更有效的降低推理成本方法，依然是中美头部模型公司共同努力的方向。

几天前，OpenAI 宣布与 Broadcom博通联合研发 AI 推理芯 Jalapeño，OpenAI 是继 Google、Meta、微软等主流 AI 厂商中有一个布局自研 AI 芯片的公司。

这反映了 OpenAI 对未来 AI 的判断，几年来，整个行业都把重点放在训练更强的大模型上，GPU 也成为最大的受益者，但随着模型能力不断提升，真正持续消耗算力的是模型部署后的推理阶段。未来无论是企业 API还是 AI agent，只要用户持续使用，就需要不断进行推理。

因此，如何提高推理效率、降低功耗，是 AI 公司未来必须解决的问题。

上车，带你看遍全球 AI 顶会精华

可独家畅览：

专家演讲PPT

大会报告全文

热门论文解读

学术新星访谈

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.