网易首页 > 网易号 > 正文 申请入驻

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单

0
分享至



在选择使用大模型 (LLM) 时,除了模型性能强弱,价格也是一个重要指标。人们通常会用大模型的 API 定价更贵或更便宜,来比较模型的价格高低。但事实上,定价低的模型真的比定价高的模型使用起来更便宜吗?

如今,一项来自斯坦福、加州伯克利大学、卡内基梅隆大学和微软研究院的研究,揭示了 AI 模型中的价格倒挂现象:低定价的 AI 模型,反而有可能产生更高的实际开销!



  • 论文标题:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
  • 论文地址:https://arxiv.org/abs/2603.23971

图 1 给出了主流模型的定价和它们在实际任务上的开销。



图 1: 左图展示了模型定价和实际花销的关系,右图给主流模型定价和实际价格各自排序。揭示了价格倒挂现象:低定价的模型反而产生了更高的实际开销。

GPT-5.2 的 API 定价是 Gemini 3 Flash 的 4.5 倍,但其实际成本仅为 Gemini 3 Flash 的 81%。类似地,Claude Opus 4.6 的 API 定价是 Google Gemini 3.1 Pro 的两倍,但其实际成本却低了 35%。

这到底是怎么回事?今天,我们就一起探讨这项研究。

AI 模型开销的审计框架

为了精准刻画 AI 模型的实际开销,研究聚焦于 8 个广泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任务则囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 个主流数据集。

前沿模型通常采用按量付费的定价机制,即用户为发送的每个查询分别付费。

这种定价机制对于给定模型通常涉及两个组成部分:每单位输入 token 的价格,以及每单位输出 token 的价格。对于给定查询,成本是两个价格按提示 token 数和输出 token 数加权的总和。(为了便于理解, 下文中的讨论都使用平均加权。 对更多不同加权情况感兴趣的话,可以在互动网站上尝试:https://price-reversal.streamlit.app/)

AI 模型的成本倒挂现象



图 2: 实际成本排名在不同任务之间存在显著差异。

测试发现:定价排名与实际成本排名的巨大反差,且这样的价格逆转是普遍存在的。根据固定标价 API 定价进行的标准评估是具有误导性的。

例如,Gemini 3 Flash 的标价($3.5)仅为 GPT-5.2 价格($15.75)的 22%,但其在 MMLUPro 上的实际成本实际上是后者的六倍(见图2)!

根据 API 标价,Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂贵的。其实际成本几乎是 Gemini 3.1 Pro 的两倍。

为量化价格逆转的普遍程度,研究人员检查了所有 8 个模型组成的 28 个模型对,在 9 项任务上的表现,共产生 252 次成对成本比较,其中21.8%(55 次)比较表现出价格逆转。

这意味着,仅基于标价的成本判断中,大约每五次就有一次是错误的。同时模型的相对成本排序高度依赖于任务。一个在某个数据集上便宜的的模型可能在另一个数据集上成为最昂贵的之一。

为什么会出现倒挂现象?

我们先来介绍一个有趣的现象:一个富人和穷人同时购买靴子。富人花费了 100 元购买了一双好靴子,而穷人为了省钱,只能支付 15 元购买了坏靴子。好靴子可以使用 10 年,而坏靴子只能使用 1 年。结果,穷人不得不每年购买一双坏靴子。一个悖论就此出现了:穷人为了省钱购买了便宜的靴子,但却花费了更多的钱。这就是社会经济学中著名的靴子理论(Boots Theory):看上去价格便宜的商品,有可能带来更高的总成本。

研究发现有些 AI 模型也出现了类似的 “靴子现象”, 问题的关键是推理 token。



图 3:图中展示了模型真实价格的具体拆分:输入、推理、输出。不同模型在相同任务上消耗的推理token 数量差异巨大。

首先,推理 token 是模型开销的主要来源。如图 3 所示,在模型的开销里,输入的 prompt 和输出的最终结果通常只消耗总成本的 10% 不到,而大部分的开销都来自于推理 token。这一分解揭示了思考 token 几乎在所有模型中都是主导的成本组成部分。其次,不同模型的推理 token 的数量差距极大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的将近 10 倍。



图 4: 在同一道 AIME 题目上,GPT-5.2 使用 562 个思考 token,而 Gemini 3 Flash 使用超过 11,000 个,导致实际成本高出 2.5 倍。

图 4 给出了一个具体的例子。给定同一道 AIME 2025 题目,GPT-5.2 和 Gemini 3 Flash 得出的最终答案一样,最终的思路也大致相同。然而,得到这一思路和答案的过程却大相径庭:GPT-5.2 仅仅使用约五百个 token 就完成了思考,而 Gemini Flash 却需要超过一万个 token。这揭示了开销逆转的本质来源于思考 token 数量的巨大差距。



图 5: 从实际成本计算中去除思考 token 成本。(a) 标价排名与实际成本排名之间的相关性在所有任务中均显著提高。(b) 成对排名逆转数平均减少 70%。

事实上,去掉思考 token 可以使得实际开销和模型定价保持高度一致。如图 5 所示,去除思考 token 成本显著恢复了所有 9 项任务的排名一致性,并且使得排名逆转的数量减少了 70%。这进一步验证了思考 token 才是成本倒挂的隐藏杀手。

我们可以直接预测任务成本吗?



图 6: 实际开销的不可预测性。对每一个 AIME 数据集上的任务跑 5 次所产生的推理 token 数量。对于固定的任务和固定的模型,多次实验所产生的 token 数,也有着巨大的差异。这意味着推理 token 数量本身就是不可预测的。

既然定价不能准确反映实际开销,我们是否可以直接预测实际开销呢?

实践表明:实际开销其实是一个高度不可预测的量!

如图 5 所示,研究人员在数学竞赛数据集上多次运行同一个模型,发现它们的推理 token 的数量差距巨大。例如,对第 6 个任务,GPT-5.2 的推理 token 数最大可达五万,最低只需 2 万,达到了 2.5 倍的差距。这就意味着,推理 token 数本身带有巨大的随机性,因此,推理 token 数具有高度的不确定性和不可预测性,从而让实际开销的预测变得极为困难。

结论

这一研究发现了AI 模型领域的靴子现象:定价更低的模型反而可能带来更高的实际开销。同时,它又指出了实际开销的不确定性和不可预测性。这表明,要选取物美价廉的 AI 模型,并不是看看价目表就够了。

作者们还开源了使用的数据,提供了一个可互动的网站,为后续研究提供了基础。

  • 数据:https://github.com/lchen001/pricing-reversal
  • 网站:https://price-reversal.streamlit.app/

作者介绍

本文由来自斯坦福大学、加州伯克利大学、卡内基梅隆大学、和微软研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

  • Lingjiao Chen,斯坦福大学博士,微软研究院资深研究员。
  • Chi Zhang,卡耐基梅隆大学博士。
  • Yeye He,微软研究院首席研究员。
  • Ion Stoica,加州伯克利大学教授,美国工程院院士,Databricks 创始人兼主席。
  • Matei Zaharia,加州伯克利大学教授,Databricks 创始人兼首席技术官。
  • James Zou,斯坦福大学教授。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
暴雨警报!江苏出梅最新消息

暴雨警报!江苏出梅最新消息

半窗疏影
2026-06-22 11:33:54
大单涌入,1900亿龙头涨停!“坚持了3年,今天卖了……”

大单涌入,1900亿龙头涨停!“坚持了3年,今天卖了……”

新浪财经
2026-06-22 16:49:45
大冷门!世界杯首支出局强队,三位天才成笑柄,世界名帅头号罪人

大冷门!世界杯首支出局强队,三位天才成笑柄,世界名帅头号罪人

叹为观止易
2026-06-22 10:48:44
翁帆这事,我真的看不下去了。她骑马的样子,凭什么就该被骂?

翁帆这事,我真的看不下去了。她骑马的样子,凭什么就该被骂?

南万说娱26
2026-06-17 11:30:24
拿孩子当筹码?哈里梅根携子女高调返英,被曝设局勒索王室要特权

拿孩子当筹码?哈里梅根携子女高调返英,被曝设局勒索王室要特权

世界王室那些事
2026-06-22 18:36:12
徐向前是公认的好说话,建国后却与2位将军坚决不来往,有何矛盾

徐向前是公认的好说话,建国后却与2位将军坚决不来往,有何矛盾

史之铭
2026-06-22 01:49:02
再扛36亿欠款!王健林被曝砸钱给儿子私生女铺路,黄一鸣摊牌了

再扛36亿欠款!王健林被曝砸钱给儿子私生女铺路,黄一鸣摊牌了

星娱叨叨社
2026-06-22 18:35:45
在蒙古工作的华人感慨:不要听媒体吹牛,蒙古相当于我国二线城市

在蒙古工作的华人感慨:不要听媒体吹牛,蒙古相当于我国二线城市

科技故事聚焦
2026-06-22 13:41:32
人到晚年,一定要在还能走动时,把这五件事办了,一旦卧床就晚了

人到晚年,一定要在还能走动时,把这五件事办了,一旦卧床就晚了

王二哥老搞笑
2026-06-21 09:50:17
佛得角逼平乌拉圭,央视3次发文,释放2大信号,范志毅没说错

佛得角逼平乌拉圭,央视3次发文,释放2大信号,范志毅没说错

林子说事
2026-06-22 17:55:32
618苹果又屠榜,国产机只剩尴尬

618苹果又屠榜,国产机只剩尴尬

热搜摘要官
2026-06-20 00:27:40
上海一女老师感染艾滋病,医生寻找原因,发现她有2个致命误区

上海一女老师感染艾滋病,医生寻找原因,发现她有2个致命误区

杜医生聊健康
2026-06-22 09:30:12
理发店成片倒闭,真不是没人剪头发,而是把客人做没了!

理发店成片倒闭,真不是没人剪头发,而是把客人做没了!

猫叔东山再起
2026-06-14 12:30:06
7号台风将冲17级,风眼已开,9省暴雨5省大暴雨,主雨带大整合

7号台风将冲17级,风眼已开,9省暴雨5省大暴雨,主雨带大整合

老牛讲
2026-06-22 17:55:07
女副处只有性别是真的

女副处只有性别是真的

晓记
2026-06-22 11:00:31
美联储,加息大消息!“大空头”,突发警告!

美联储,加息大消息!“大空头”,突发警告!

证券时报
2026-06-22 09:22:26
笑岔气了!第一次听说什么是“洗衣机男”,看完又笑喷了!

笑岔气了!第一次听说什么是“洗衣机男”,看完又笑喷了!

水泥土的搞笑
2026-06-21 12:33:59
布达拉宫地下世界复杂得吓人!
金碧辉煌下藏着1200多个“地垄”

布达拉宫地下世界复杂得吓人! 金碧辉煌下藏着1200多个“地垄”

西楼知趣杂谈
2026-06-12 08:54:44
何超欣现身皇家赛马会,一套香奈儿却显得精致土,脸看着也很奇怪

何超欣现身皇家赛马会,一套香奈儿却显得精致土,脸看着也很奇怪

可乐谈情感
2026-06-22 01:29:03
2024NBA首轮选秀顺位重排完成

2024NBA首轮选秀顺位重排完成

体坛周报
2026-06-22 19:32:10
2026-06-22 21:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13329文章数 142677关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

月薪5千男子3个月打赏女主播14万一面没见过 父母崩溃

头条要闻

月薪5千男子3个月打赏女主播14万一面没见过 父母崩溃

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

时尚
本地
家居
旅游
军事航空

不得不说,“T恤+九分裤”真的很适合夏天,清爽减龄又高级!

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

家居要闻

绿意盎然 自然之境

旅游要闻

2026年福建端午文旅市场火热 闽式端午绽放新活力

军事要闻

东风-17发射状态首次公开 多车齐射场面硬核

无障碍浏览 进入关怀版