网易首页 > 网易号 > 正文 申请入驻

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单

0
分享至



在选择使用大模型 (LLM) 时,除了模型性能强弱,价格也是一个重要指标。人们通常会用大模型的 API 定价更贵或更便宜,来比较模型的价格高低。但事实上,定价低的模型真的比定价高的模型使用起来更便宜吗?

如今,一项来自斯坦福、加州伯克利大学、卡内基梅隆大学和微软研究院的研究,揭示了 AI 模型中的价格倒挂现象:低定价的 AI 模型,反而有可能产生更高的实际开销!



  • 论文标题:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
  • 论文地址:https://arxiv.org/abs/2603.23971

图 1 给出了主流模型的定价和它们在实际任务上的开销。



图 1: 左图展示了模型定价和实际花销的关系,右图给主流模型定价和实际价格各自排序。揭示了价格倒挂现象:低定价的模型反而产生了更高的实际开销。

GPT-5.2 的 API 定价是 Gemini 3 Flash 的 4.5 倍,但其实际成本仅为 Gemini 3 Flash 的 81%。类似地,Claude Opus 4.6 的 API 定价是 Google Gemini 3.1 Pro 的两倍,但其实际成本却低了 35%。

这到底是怎么回事?今天,我们就一起探讨这项研究。

AI 模型开销的审计框架

为了精准刻画 AI 模型的实际开销,研究聚焦于 8 个广泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任务则囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 个主流数据集。

前沿模型通常采用按量付费的定价机制,即用户为发送的每个查询分别付费。

这种定价机制对于给定模型通常涉及两个组成部分:每单位输入 token 的价格,以及每单位输出 token 的价格。对于给定查询,成本是两个价格按提示 token 数和输出 token 数加权的总和。(为了便于理解, 下文中的讨论都使用平均加权。 对更多不同加权情况感兴趣的话,可以在互动网站上尝试:https://price-reversal.streamlit.app/)

AI 模型的成本倒挂现象



图 2: 实际成本排名在不同任务之间存在显著差异。

测试发现:定价排名与实际成本排名的巨大反差,且这样的价格逆转是普遍存在的。根据固定标价 API 定价进行的标准评估是具有误导性的。

例如,Gemini 3 Flash 的标价($3.5)仅为 GPT-5.2 价格($15.75)的 22%,但其在 MMLUPro 上的实际成本实际上是后者的六倍(见图2)!

根据 API 标价,Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂贵的。其实际成本几乎是 Gemini 3.1 Pro 的两倍。

为量化价格逆转的普遍程度,研究人员检查了所有 8 个模型组成的 28 个模型对,在 9 项任务上的表现,共产生 252 次成对成本比较,其中21.8%(55 次)比较表现出价格逆转。

这意味着,仅基于标价的成本判断中,大约每五次就有一次是错误的。同时模型的相对成本排序高度依赖于任务。一个在某个数据集上便宜的的模型可能在另一个数据集上成为最昂贵的之一。

为什么会出现倒挂现象?

我们先来介绍一个有趣的现象:一个富人和穷人同时购买靴子。富人花费了 100 元购买了一双好靴子,而穷人为了省钱,只能支付 15 元购买了坏靴子。好靴子可以使用 10 年,而坏靴子只能使用 1 年。结果,穷人不得不每年购买一双坏靴子。一个悖论就此出现了:穷人为了省钱购买了便宜的靴子,但却花费了更多的钱。这就是社会经济学中著名的靴子理论(Boots Theory):看上去价格便宜的商品,有可能带来更高的总成本。

研究发现有些 AI 模型也出现了类似的 “靴子现象”, 问题的关键是推理 token。



图 3:图中展示了模型真实价格的具体拆分:输入、推理、输出。不同模型在相同任务上消耗的推理token 数量差异巨大。

首先,推理 token 是模型开销的主要来源。如图 3 所示,在模型的开销里,输入的 prompt 和输出的最终结果通常只消耗总成本的 10% 不到,而大部分的开销都来自于推理 token。这一分解揭示了思考 token 几乎在所有模型中都是主导的成本组成部分。其次,不同模型的推理 token 的数量差距极大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的将近 10 倍。



图 4: 在同一道 AIME 题目上,GPT-5.2 使用 562 个思考 token,而 Gemini 3 Flash 使用超过 11,000 个,导致实际成本高出 2.5 倍。

图 4 给出了一个具体的例子。给定同一道 AIME 2025 题目,GPT-5.2 和 Gemini 3 Flash 得出的最终答案一样,最终的思路也大致相同。然而,得到这一思路和答案的过程却大相径庭:GPT-5.2 仅仅使用约五百个 token 就完成了思考,而 Gemini Flash 却需要超过一万个 token。这揭示了开销逆转的本质来源于思考 token 数量的巨大差距。



图 5: 从实际成本计算中去除思考 token 成本。(a) 标价排名与实际成本排名之间的相关性在所有任务中均显著提高。(b) 成对排名逆转数平均减少 70%。

事实上,去掉思考 token 可以使得实际开销和模型定价保持高度一致。如图 5 所示,去除思考 token 成本显著恢复了所有 9 项任务的排名一致性,并且使得排名逆转的数量减少了 70%。这进一步验证了思考 token 才是成本倒挂的隐藏杀手。

我们可以直接预测任务成本吗?



图 6: 实际开销的不可预测性。对每一个 AIME 数据集上的任务跑 5 次所产生的推理 token 数量。对于固定的任务和固定的模型,多次实验所产生的 token 数,也有着巨大的差异。这意味着推理 token 数量本身就是不可预测的。

既然定价不能准确反映实际开销,我们是否可以直接预测实际开销呢?

实践表明:实际开销其实是一个高度不可预测的量!

如图 5 所示,研究人员在数学竞赛数据集上多次运行同一个模型,发现它们的推理 token 的数量差距巨大。例如,对第 6 个任务,GPT-5.2 的推理 token 数最大可达五万,最低只需 2 万,达到了 2.5 倍的差距。这就意味着,推理 token 数本身带有巨大的随机性,因此,推理 token 数具有高度的不确定性和不可预测性,从而让实际开销的预测变得极为困难。

结论

这一研究发现了AI 模型领域的靴子现象:定价更低的模型反而可能带来更高的实际开销。同时,它又指出了实际开销的不确定性和不可预测性。这表明,要选取物美价廉的 AI 模型,并不是看看价目表就够了。

作者们还开源了使用的数据,提供了一个可互动的网站,为后续研究提供了基础。

  • 数据:https://github.com/lchen001/pricing-reversal
  • 网站:https://price-reversal.streamlit.app/

作者介绍

本文由来自斯坦福大学、加州伯克利大学、卡内基梅隆大学、和微软研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

  • Lingjiao Chen,斯坦福大学博士,微软研究院资深研究员。
  • Chi Zhang,卡耐基梅隆大学博士。
  • Yeye He,微软研究院首席研究员。
  • Ion Stoica,加州伯克利大学教授,美国工程院院士,Databricks 创始人兼主席。
  • Matei Zaharia,加州伯克利大学教授,Databricks 创始人兼首席技术官。
  • James Zou,斯坦福大学教授。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
500万大奖扣税又捐款缩水至300万,拒绝捐款到底行不行?

500万大奖扣税又捐款缩水至300万,拒绝捐款到底行不行?

复转这些年
2026-04-14 12:03:49
许家印最后防线崩塌!高院下死命令:20日不交钱就彻底禁言!

许家印最后防线崩塌!高院下死命令:20日不交钱就彻底禁言!

历史伟人录
2026-03-30 18:00:12
百亿遗产说扔就扔?73岁迟重瑞现身寺庙,白岩松一语道破小心思

百亿遗产说扔就扔?73岁迟重瑞现身寺庙,白岩松一语道破小心思

流云随风去远方
2026-04-12 03:19:07
怒喷!巴萨出局头号罪人!他亲手葬送欧冠翻盘希望

怒喷!巴萨出局头号罪人!他亲手葬送欧冠翻盘希望

奶盖熊本熊
2026-04-15 06:46:06
陪玩陪睡算啥!继注射不明物后内娱又曝猛料,遭殃的何止迪丽热巴

陪玩陪睡算啥!继注射不明物后内娱又曝猛料,遭殃的何止迪丽热巴

草莓解说体育
2026-04-15 13:37:36
扫码缴费咋成了“闯关游戏”?记者走访发现:停车场、充电桩、快递柜也布满“广告陷阱”

扫码缴费咋成了“闯关游戏”?记者走访发现:停车场、充电桩、快递柜也布满“广告陷阱”

中国能源网
2026-04-14 11:15:32
国防部话音刚落,东部战区就来真的了!台海方向,有些人该失眠了

国防部话音刚落,东部战区就来真的了!台海方向,有些人该失眠了

闫树军论评
2026-04-14 18:35:59
海峡被封,特朗普给了中国两条路,中方二话不说,马上给俄发邀请

海峡被封,特朗普给了中国两条路,中方二话不说,马上给俄发邀请

介知
2026-04-15 10:22:02
27岁演员周墨患脑梗死!185公分体重曾达60斤,疑与熬夜劳累有关

27岁演员周墨患脑梗死!185公分体重曾达60斤,疑与熬夜劳累有关

裕丰娱间说
2026-04-14 11:05:13
丹麦把旅居台湾民众居留证国籍、出生地登记改为中国,国台办回应

丹麦把旅居台湾民众居留证国籍、出生地登记改为中国,国台办回应

新京报
2026-04-15 11:21:58
夜袭阳明堡飞机场一战,我军共牺牲多少战士,击毁敌军多少飞机?

夜袭阳明堡飞机场一战,我军共牺牲多少战士,击毁敌军多少飞机?

云霄纪史观
2026-04-14 18:20:46
鲍尔肮脏黑手重伤阿德巴约 加时绝杀淘汰热火

鲍尔肮脏黑手重伤阿德巴约 加时绝杀淘汰热火

体坛周报
2026-04-15 11:41:09
郑丽文返台后,岛内民调曝光,位列倒数第三,蒋万安捡了大漏?

郑丽文返台后,岛内民调曝光,位列倒数第三,蒋万安捡了大漏?

影孖看世界
2026-04-14 16:01:45
4月13日国务院放大招,乡镇卫生院终于不用再当“摆设”了

4月13日国务院放大招,乡镇卫生院终于不用再当“摆设”了

李博世财经
2026-04-14 10:02:08
东体:有足协领导在朋友圈为韦世豪打call,直言见证他的成长

东体:有足协领导在朋友圈为韦世豪打call,直言见证他的成长

懂球帝
2026-04-15 12:25:03
伊朗高层兵马未动,资金先逃

伊朗高层兵马未动,资金先逃

生命可以承受之轻
2026-04-13 08:50:39
哪种运动性价比最高,柳叶刀给出答案了

哪种运动性价比最高,柳叶刀给出答案了

新浪财经
2026-04-15 05:09:31
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
乌军对克里米亚发动大规模袭击

乌军对克里米亚发动大规模袭击

新京报
2026-04-14 18:44:44
大胆去做,不要怕,没有人在乎。就算有人在乎,人又算什么东西

大胆去做,不要怕,没有人在乎。就算有人在乎,人又算什么东西

清风拂心
2026-04-07 10:15:07
2026-04-15 14:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12769文章数 142627关注度
往期回顾 全部

科技要闻

手机无死角上网?亚马逊砸百亿硬刚马斯克

头条要闻

上万美军封锁下 多艘货船成功通过霍尔木兹海峡

头条要闻

上万美军封锁下 多艘货船成功通过霍尔木兹海峡

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

曾志伟办73岁生日派对,逾百艺人到场

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

海豹08内饰首秀 大满配“海王”旗舰

态度原创

家居
旅游
教育
时尚
健康

家居要闻

简而不减 暖居之道

旅游要闻

国色天香!盐城珠溪古镇多处牡丹绽放

教育要闻

413、403、375分!文华学院这3个女孩同时上岸武汉体育学院!

坏事做尽的疯女人,集体翻红了

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版