网易首页 > 网易号 > 正文 申请入驻

DSpark推理速度提升80%后,OpenAI宣布新方法将推理成本降低了一半

0
分享至


OpenAI 上市前,提高软件效率的价值可能与构建更强的 AI 模型不相上下。

作者丨张进

编辑丨马晓宁

近日,《The Information》独家消息称, 六月早些时候,OpenAI 工程师开发了一种优化技术,将应用该优化技术的模型的推理成本降低了一半。

据说,当工程师们将这项新技术应用于为未登录访客提供 ChatGPT 服务时,它在某个时刻将所需的英伟达 GPU 数量降至仅仅几百块。这是一个惊人的低数字,不过 OpenAI 从这类用户那里得到的 ChatGPT 使用量可能不大,因为公司限制了这些用户使用 chatbot 的额度。

这很重要,因为推理而非训练现在依然是前沿 AI 实验室和每个 AI 公司最大的持续开支,每条提示、每个 API 调用和每个 AI agent 操作都要经过推理。

如果将这项推理技术扩大应用于登录用户的请求流量范围,影响将是巨大的,意味着 OpenAI 能因此拥有更高的利润率、运营成本降低以及减少对 GPU 的依赖,对于用户来说更多的免费使用或者更便宜的 API。

对于一家正在推动上市的公司而言,提高软件效率的价值可能与构建更强大的 AI 模型不相上下。

01


只是量化?

不过,OpenAI 并未公开优化方案的具体技术细节,业内猜测可能是基于一些公开的研究成果,例如推测性解码、 FlashAttention、vLLM 的 PagedAttention 等方案。

对于 OpenAI 这种不公开细节的“宣传”方式,有网友认为只不过是一次模型量化,一种常见的优化手段。

量化是降低模型推理成本最直接有效的方法,几乎所有高效推理引擎都内置了量化支持。模型量化就是把模型的权重从高精度(比如FP32)压缩到低精度(比如INT8),目的是缩小模型体积、降低计算需求和能耗。

例如模型大小减少 75%(从 280GB 变成 70GB),显存占用更小;GPU 读取权重的速度快了,因为数据量少了 4 倍,同样的带宽能更快传输;硬件层面 INT8 整数乘法比 FP32 浮点乘法快得多,现代 GPU 有专门的 INT8 计算单元。综合这三个效果,单个 token 的生成速度能提升 2-4 倍,推理成本可以降低 50-70%。

除模型量化外,常见的优化手段还有键值缓存、请求批量处理、调度请求至低功耗轻量化模型或模型子模块来完成应答等,分别作用于模型推理流程的不同阶段。

还有人猜测他们使用的很可能是基于公开的研究成果,例如投机解码、FlashAttention、vLLM 的 PagedAttention,这几种方法都可以显著提高推理效率。

投机解码是用更小/更快的模型生成多个候选 tokens,再用大模型验证,而不是逐个生成,可以实现 2 倍以上的速度提升,特别是对长序列生成,以此减少大模型的推理次数。

FlashAttention 的原理是重新设计注意力机制的计算流程,减少 GPU 内存访问,将注意力计算的时间复杂度从 O(N²) 优化,速度快 2-4 倍,使得模型有更高的 GPU 利用率,也能让硬件能处理更多请求。

vLLM 的 PagedAttention 则是将 KV 缓存按"页"管理,类似操作系统的虚拟内存,避免内存碎片浪费,有效降低每个请求的 GPU 成本,显著提高了 GPU 利用率。

相对于 OpenAI 这种“欲说还休”的姿态,DeepSeek 则早于 OpenAI 几天推出了一种全新的投机解码方法 DSpark,实现了 V4 模型每位用户推理速度 60%-85% 的提升,且无需重新训练任何模型权重。

02


如何提高推理效率,是 AI 公司必须解决的问题

这项研究由 DeepSeek 和北京大学共同完成,论文标题为《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》(DSpark:基于置信度调度的投机解码与半自回归生产)。


这是一种在不改变输出结果的前提下提升生成速度的标准方法,其原理是通过筛选“无需验证”的内容来加速 LLM 推理。 提升投机解码(speculative decoding)速度有三个关键因素:加快草稿生产速度、提高接受率或降低验证成本。DSpark 优化了后两个。

具体流程是,构建一个轻量级的草稿模型(draft model)预先预测出后续的若干个 token,随后完整模型(full model)一次性验证这些预测结果,并保留其中匹配的最长序列。由于该验证过程采用了拒绝采样(rejection sampling),最终生成的文本与大模型独立生成的结果完全一致。

DSpark 真正的作用并不是用一个“更快的草稿模型”先随便生成答案/猜测,而是在众多可能猜测中,判断哪些猜测值得后续去验证。因此,整个过程关键的两点是生成的草稿质量和更智能的验证。

该成果于 2026 年 6 月 27 日发布,适用于 V4 Flash 和 Pro 模型。已在 MIT 许可证下开源,DeepSeek 还展示了 DSpark 在 Gemma 和 Qwen 等其他模型上的良好表现。

在 DSpark 实现了 V4 模型每位用户推理速度 60%-85% 的提升的同时,DeepSeek 宣布 V4 正式版发布后,将同步调整 API 定价策略,引入峰谷定价机制。

根据公布的价格方案,API 高峰时段价格将为平时价格的 2 倍,而高峰时代几乎覆盖了上班时间。相比一刀切的涨价或者限流定价策略,DeepSeek 引入的峰谷定价机制本质上是用价格杠杆替代容量约束,在保留用户的前提下优化资源利用率,是一种提升利润率的精细化商业策略。

半个月前,DeepSeek 完成了首轮外部融资,融资金额 510 亿元,同月发布开源推理加速框架 DSpark,引入峰谷定价机制。结合一系列动作来看,DeepSeek 在传递一个清晰的行业信号:AI 的低价时代,正在谢幕。

从 ChatGPT 爆发以来,AI 改变了世界的一部分。而训练一个顶级模型的成本动辄上亿美元,后续的推理费用也不便宜,一个用户每个月享受到的服务,可能远超付出的价格。

今天,无论是 OpenAI,还是 DeepSeek,探索更有效的降低推理成本方法,依然是中美头部模型公司共同努力的方向。

几天前,OpenAI 宣布与 Broadcom博通联合研发 AI 推理芯 Jalapeño,OpenAI 是继 Google、Meta、微软等主流 AI 厂商中有一个布局自研 AI 芯片的公司。

这反映了 OpenAI 对未来 AI 的判断,几年来,整个行业都把重点放在训练更强的大模型上,GPU 也成为最大的受益者,但随着模型能力不断提升,真正持续消耗算力的是模型部署后的推理阶段。未来无论是企业 API还是 AI agent,只要用户持续使用,就需要不断进行推理。

因此,如何提高推理效率、降低功耗,是 AI 公司未来必须解决的问题。



上车,带你看遍全球 AI 顶会精华

可独家畅览:

专家演讲PPT

大会报告全文

热门论文解读

学术新星访谈


未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯愿底薪加盟!超12支球队联系!

詹姆斯愿底薪加盟!超12支球队联系!

柚子说球
2026-07-03 01:33:09
玉米是血栓“凶手”?医生劝告:上了年纪的老人,这几物尽量少碰

玉米是血栓“凶手”?医生劝告:上了年纪的老人,这几物尽量少碰

岐黄传人孙大夫
2026-07-01 23:35:03
白酒再次被讨论!研究提示:糖尿病常喝白酒,可能影响4个方面

白酒再次被讨论!研究提示:糖尿病常喝白酒,可能影响4个方面

芹姐说生活
2026-07-02 15:58:47
14.38万起售卖爆了!MONA L03打破小鹏所有车型同期小订纪录

14.38万起售卖爆了!MONA L03打破小鹏所有车型同期小订纪录

快科技
2026-07-03 01:02:21
国乒男单下半区仅剩王楚钦林诗栋,梁靖崑伤退小将未顶上

国乒男单下半区仅剩王楚钦林诗栋,梁靖崑伤退小将未顶上

徐觳解说
2026-07-03 04:29:39
观复博物馆回应“海南被盗佛像疑现身馆内”:已上报,服从主管部门鉴定结果

观复博物馆回应“海南被盗佛像疑现身馆内”:已上报,服从主管部门鉴定结果

澎湃新闻
2026-07-02 21:24:27
合肥狂造137万辆 却眼红武汉的52万辆 摊开地图看懂中部双城的 宿命

合肥狂造137万辆 却眼红武汉的52万辆 摊开地图看懂中部双城的 宿命

坠入二次元的海洋
2026-07-03 00:29:53
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
“阴”字和“阳”字拆开看,原来易经早已透露宇宙的终极奥秘

“阴”字和“阳”字拆开看,原来易经早已透露宇宙的终极奥秘

星宇共鸣
2025-08-01 16:08:21
2-1!3-2!世界杯淘汰赛连场绝杀,诞生3个不可思议,C罗即将出战

2-1!3-2!世界杯淘汰赛连场绝杀,诞生3个不可思议,C罗即将出战

林子说事
2026-07-02 14:28:41
王曼昱爆冷输球,一场惨败暴露出三个问题 ,莎莎赛后罕见发声

王曼昱爆冷输球,一场惨败暴露出三个问题 ,莎莎赛后罕见发声

最爱乒乓球
2026-07-03 02:32:52
“四时不开窗,家人才健康”,今天才知道:这4个时间不能开窗!

“四时不开窗,家人才健康”,今天才知道:这4个时间不能开窗!

三农老历
2026-07-01 01:28:08
顶薪合同到期无缘留队!曝南京同曦把祝铭震签约权交易至山东男篮

顶薪合同到期无缘留队!曝南京同曦把祝铭震签约权交易至山东男篮

狼叔评论
2026-07-02 13:42:53
中纪委再标红线!公职人员下班后的饭局,这5种情况将严肃处理!

中纪委再标红线!公职人员下班后的饭局,这5种情况将严肃处理!

职场资深秘书
2026-06-30 13:38:48
网络热议:上海目前存在的最大问题,这届网友真敢说…

网络热议:上海目前存在的最大问题,这届网友真敢说…

慧翔百科
2026-07-02 11:18:21
内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

梦史
2026-06-22 23:45:10
事关AI交易!小摩:美股这一现象像极了互联网泡沫破裂前夕

事关AI交易!小摩:美股这一现象像极了互联网泡沫破裂前夕

财联社
2026-07-02 16:52:08
不知不觉,我国已经在南海吹填了这么多岛屿,国家真的强大了!

不知不觉,我国已经在南海吹填了这么多岛屿,国家真的强大了!

抽象派大师
2026-07-03 02:11:22
马丁内斯:世界杯现在才真正开始,我们已经准备得更加充分

马丁内斯:世界杯现在才真正开始,我们已经准备得更加充分

懂球帝
2026-07-02 05:34:06
男人和女人的关系,如果是真爱,床上无君子,见面无淑女

男人和女人的关系,如果是真爱,床上无君子,见面无淑女

加油丁小文
2026-06-11 06:05:11
2026-07-03 05:40:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7423文章数 20760关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

西班牙3-0奥地利进16强 奥亚萨瓦尔双响波罗头槌

头条要闻

西班牙3-0奥地利进16强 奥亚萨瓦尔双响波罗头槌

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

手机
旅游
数码
家居
军事航空

手机要闻

Android 17缺的原生应用锁功能,谷歌仍在持续打磨

旅游要闻

山间砂岩刻下盟约,曾经驿道地标胜景,如今只剩夯土空台一座!

数码要闻

卓威同步发布XQ2766X显示器:27" QHD 360Hz TN

家居要闻

传奇筑 日常诗

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版