网易首页 > 网易号 > 正文 申请入驻

OpenAI新定价让GPT-5.4聊天成本高达80美元,谷歌新论文或许能解围

0
分享至


腾讯前沿科技论文解读专栏,在代码与商业的交汇处,寻找AI的确定性。

文|博阳

编辑|徐青阳

在过去的几年里,更完善高效的基建(infra)一直在压低人工智能的token成本,各家都在压低价格这个赛道上前进。

但最近OpenClaw等具有强大 Agent 能力的现象级应用爆火,API (应用程序接口)账单却迎来了逆势飙升。除了 Agent 运作本身带来的海量上下文堆叠外,还有一个隐藏在背后的吞金兽,即越来越长、甚至走向失控的「思维链」(Chain-of-Thought, CoT)。

自从 OpenAI 的 o1 模型掀起了测试时计算(Test-time compute)的革命以来,多想一会儿表现更好似乎成了通往通用人工智能的万能钥匙。到如今,当我们调用旗舰级推理模型时,它们在后台的思考时间确实呈指数级增长,动辄吐出成千上万字的内心独白。OpenAI在2025年1月的财报电话会上透露,o1系列的平均单次请求token消耗是GPT-4o的2.7倍,而在某些编程任务上这个倍数可以冲到五倍甚至更高。

而且这个趋势完全没有停下来的倾向。比如今天新发布的GPT 5.4 Pro花了5分18s,80美元,来回答一个Hi的招呼。


这么长的思维链,真的都有用吗?它什么时候才有用?我们究竟怎样才能让模型思考得少而精?这个问题从o1诞生之初就困扰着研究者,现象解读和解决方法一直都有,但它们都没有完全解决如何去选择有效的思考token的问题。到目前为止,业界的主流方法依然是路由,即模型自行判断是否需要思考。

2026年2月,来自Google的一篇论文《Think Deep, Not Just Long》给出了一种更本质的解决方法。


简单来讲,就是看模型思考有没有用,就要看它想的深不深。

更多不一定更好

Chain-of-Thought的到来其实比GPT还早。2022年,Google的研究者们发表的两篇论文几乎同时确立了CoT作为推理范式的地位。第一篇《Chain-of-Thought Prompting》展示了通过在few-shot示例中加入推理链,可以让大模型在算术、常识、符号推理等任务上实现跨越式提升。在某些设置下,准确率能从接近零跳到60%以上。第二篇《Zero-shot CoT》则提出了知名的「Let's think step by step」。把它加在Prompt后面,就能激活模型的多步推理能力。

这两个发现迅速成为行业共识,几乎所有需要复杂推理的应用都开始默认启用CoT。研究者们自然地认为,既然CoT有效,那么更长的CoT应该更有效。

2023年到2024年上半年,大量工作围绕如何让模型生成更长、更精细的推理链展开。有的通过提示工程诱导更详细的分解,有的通过强化学习奖励更长的CoT流,有的则在训练时用大模型生成的长推理链蒸馏小模型。这种对长度的追求在o1发布时达到了巅峰,它引导的test-time compute革命,核心就是在推理时生成更长的内部思考。

发现问题

但在距离o1还有半年的2024年夏天,来自不同机构的研究者就开始质疑这些思考的有效性了。

比如,斯坦福的一个团队在分析o1和Claude的推理行为时注意到,对于简单的小学算术题,这些模型往往会生成数百甚至上千tokens的推理文本,但其中大部分是重复验算、自我质疑、多种解法尝试,而人类解答这些题只需要两三步口算。

当他们手动剪短这些冗长推理时,答案的正确率并没有下降,甚至有时还会轻微上升。这说明,模型可能并不真正需要那么多思考,它只是被后训练的奖励驱使着不断生成。

2025年5月,一篇题为《When More is Less》的论文为这个现象提供了更精确的刻画。用控制实验构造了不同长度的推理链,并在多个难度梯度的任务上绘制出长度-准确率曲线。他们发现,思维链的长度与最终结果的准确率之间其实是一个倒U型曲线。


在不超过U高点的区间内增加思考步骤确实有帮助,但超过这个区间后,准确率开始单调下降。而且这个最优长度会随任务难度和模型能力变化。对于更难的问题,最优长度向右移;但对于能力更强的模型,最优长度反而向左移,似乎更强的模型更懂得点到为止。

论文作者将这个现象称为simplicity bias。当模型已经掌握了解题的本质,继续生成只是在累积噪声和干扰。一旦超过某个临界点,模型就会陷入一种名为过度思考(Overthinking)的泥潭。在这种反向扩展(Inverse scaling)的区间里,你花真金白银买来的多余 Token,不仅没有增加智能,反而降低了正确率。

解剖COT

那么,这些动辄几万字的超长 Token,到底都花在了哪里?

长推理链的形成主要有三种模式,它们都会遇到Overthinking的问题。

第一种是线性展开。模型一步步推进,每一步都生成新的中间结果,就类似于打草稿。这是最经典的CoT形态。这里的Overthinking问题,主要出在模型往往不知道何时该停笔。已经算出答案了还在继续验算,或者用三种方法重复解同一道题。

第二种是反思循环。模型生成初步答案后会触发自我质疑机制,不断生成自我纠正文本。这在复杂问题上确实有价值,但在简单问题上也反思,就Overthinking了。

第三种是多路径采样。为了提升鲁棒性,系统会让模型生成十几个甚至几十个不同的推理轨迹,最后通过投票选出最一致的答案。这种方法在解决特别复杂的问题时确实有效,但代价是成本呈几何级数暴涨。而且这些候选推理轨迹里有相当一部分都很不靠谱,无法有效剔除它们就造成了Overthinking。

《When More is Less》的作者在分析倒U型曲线的右半段时发现,准确率下降的样本中,90%以上都包含大量的重复验证和无效反思。这意味着,Overthinking的本质是想重复了。模型在已经掌握答案的情况下,被训练机制驱使着不断生成变体和确认,而这些冗余正是拖累准确率的元凶。

理解了这三种机制及其失控模式,才能有针对性地设计控制策略。

控制长度的尝试

到2025年中,学术界和工业界对overthinking已经形成了共识。问题开始从「是否存在overthinking」转移到「如何精确识别和控制它」。

最直接的办法就是设置硬性限制。比如《Token-Budget-Aware LLM Reasoning》这样的方法会在提示词里明确告诉模型「你只有这么多字可以用」,迫使它精简表达。但这种简单粗暴的方式有个致命问题,难题解不出来了。

于是更好的解决方法是让系统动态判断何时该停止。《REFRAIN: Reasoning Efficiency via Fine-grained Reflection and Adaptive Inference》提出的方法是,在推理过程中实时监测冗余信号。当模型开始重复验证、打转反思或者陷入自我怀疑的循环时,系统就会果断喊停。这种停止策略可以在不改动模型本身的情况下,把token消耗削减20%到55%,同时还能维持甚至提升准确率。

另一条思路是路由。DynaThink和DAST这样的框架会给每个问题做个快速评估,如果是2+3等于几这种送分题,直接输出答案就行;如果是复杂的奥数题,再启动完整的推理链条和多路径采样。但当年GPT 5用上路由之后疯狂误判难度的灾难表现,正说明这种方法也并不完美。

对于依赖多样采样和投票的高算力模式,研究者们发明了早停机制。《Early-Stopping Self-Consistency》(ESC) 会在采样过程中持续监测,一旦多个答案已经形成稳定共识,就没必要继续浪费算力生成更多样本了。在GSM8K这样的数学基准上,这能把采样次数砍掉80%。

更激进的方法是从源头改造模型本身。比如有一派研究者把希望寄托在后训练上,比如在《Let's Verify Step by Step》论文中,他们希望用过程奖励模型PRM来解决一切问题。一旦模型被训练的会按照最优解方法给出答案,那自然不会写一堆废话。或者用某种精选出来的短小但正确的方法微调模型,让它输出更近似。但PRM的设计或者蒸馏微调,到现在依然是非常难控制的过程。

虽然方法很多,但以上所有这些方法都面临一个共同的困境,即它们都没有特别可靠的信号来判断「何时继续思考有价值、何时只是在堆砌无用文本」。

当前的解决方案大多依赖表面特征,比如重复模式、置信度变化、一致性收敛、历史统计。这些都是间接指标,多少有点隔岸观火。

那么,什么才是区分有效思考和无效冗余的本质指标?

寻找有用的思考

谷歌这篇论文给出方法是,想要最直观的找到有效思考的证据,那就直接把探针插进Transformer架构的深处去,观察它在生成每个词时到底有没有在真正动脑子。

当大模型生成一个词(Token)时,这个信号要在它体内经过几十甚至上百层(Layers)神经网络的层层传递与计算。这篇论文的研究人员发现了生成不同的词,在模型内部经历的挣扎程度是完全不一样的。

对于一些简单的语法词、套话,或者模型已经烂熟于心的常识,比如and、is、或者数学公式中的=,它的预测概率在 Transformer 的极浅层就已经锁定。后续几十层的庞大算力,对这个词来说仅仅是走个过场,根本没有发生实质性的计算修改。

但对于那些真正需要推理的关键tokens,比如算式中的数字、逻辑关系词、或者答案本身,模型的预测会一直修正到很深的层才收敛。


研究人员用数学散度测量中间层与最终输出之间的分布差异,提出了「深度思考率」(DTR)指标。它的定义是在一段文本中,有多少比例的token是直到网络深处才停止摇摆的?

如果大部分token都需要深层计算才能敲定,DTR就高;如果都是浅层就能搞定的套话,DTR就低。


这个指标也可以解释了前面很多基础性的困惑。

为什么长度与准确率负相关? 因为冗长推理链中充斥着"let me reconsider..."、"wait, maybe..."这类浅层套话,它们拉长序列但不产生实质思考。

为什么短链也能保持高准确率? 因为这些链高度浓缩,几乎每个token都需要深层计算,DTR接近上限。

论文给了个典型的例子。回答同一个几何题,错误样本用了27724个tokens,DTR只有13.9%;正确样本只用3725个tokens,DTR达到19.0%。前者90%都是废话,后者句句是干货。

为了证明真的找准了标准,他们在2024和2025的AIME数学竞赛、2025年HMMT、以及研究生水平的GPQA科学问答中,测试了GPT-OSS、DeepSeek-R1、Qwen3等多个推理模型家族。结果DTR与准确率完全正相关。


至此,我们可以确定,DTR 确实为我们提供了一个基于模型内部动力学机制、而非表面字数的思考质量标尺。

基于DTR,论文还提出了Think@n方法,专门优化最烧钱的多重采样模式。传统做法是让模型生成几十个完整推理链再投票,Think@n只让每个线程先吐出50个词,立刻计算DTR。那些DTR极低、明显在背套话的线程被掐断,算力只留给开头就展现强深层计算的高潜力候选。实验显示,这能用一半token达到或超过传统方法的性能。

然而,这篇论文依然留下了一个巨大的遗憾。它仅仅停留在了一个裁判的角色,在测试时阶段对已经生成的候选者进行截断。

但未来路径其实是很明显的,我们完全可以将 DTR 转化为强化学习(RL)阶段的奖励信号。如果我们在未来的模型对齐阶段,不再仅仅奖励模型得出了正确答案,而是将高 DTR 浓度作为奖励函数之一,我们就能从基因层面上改变模型的行为模式。这将逼迫模型学会把庞大的计算量压缩到极其精炼的高质量输出中。

这才是从更长的思考到更深的思考本质转变。不再用token数量衡量智能,而是用计算密度。

何为最高效的思考?DTR确实提供了一个很好的标准去观察模型是否在做更有意义的思考,从根本上解决了Overthinking识别的问题。

但它并没有回答,为什么这些想的更深的思考,效果更好。

最近卡耐基梅隆和NYU的一篇论文《从熵到表观复杂性:为计算受限的智能体重塑信息论》,为我们提供了一个信息论上的线索。


传统信息理论关注的核心是随机信息,也就是熵(entropy)。香农告诉我们,一段文本的信息量取决于它的不可预测性。熵(entropy)越高,信息越充足。

然而这根本解释不AlphaGo这样深度学习的自博弈模型。你给它输入的内容只是游戏规则,熵很低,但通过计算(推理过程),模型则能掌握非常多样的输出。

论文认为,关键在于所有的智能体,其算力都是有限的。我们不可能无穷无尽的从熵中学习,因此对这样的系统而言,数据的价值不在于它的随机性(熵),而在于它包含的可学习的结构复杂度。

对于算力受限的观察者(比如人类棋手或AI模型)来说,暴力穷举整个博弈树是不现实的,所以必须提取更高阶的抽象规律。这些规律的描述长度,远远超过了游戏规则本身。

这就是COT有用的原因。

他们把这个结构复杂度,定义成表观复杂性(Epiplexity)。


一串随机生成的API密钥可能有很高的熵,但Epiplexity接近于零,因为模型从中学不到任何可迁移的东西。相反,一段算法代码的熵可能不高,但Epiplexity很高,因为理解它需要模型构建复杂的内部表征。

这就解释了为什么高DTR的推理更有效,因为它们在产生更多的Epiplexity。

当模型进行深层推理时,它不是在简单地检索记忆或应用表面规则,而是在实时构建新的认知结构

传统理论会说这不可能,因为确定性变换不能增加信息。但Epiplexity告诉我们,这些策略不是凭空出现的,而是计算过程本身创造的结构

这篇论文把推理过程重新定义为结构信息的生成器

传统观点认为,推理是在搜索解空间。但Epiplexity视角告诉我们,好的推理不仅仅是搜索,更是在动态改变解空间的表征方式。就像数学家不是在暴力枚举定理,而是在发明新的数学对象、新的证明技巧,让原本复杂的问题变得简单。

这些步骤的共同特点是,它们都在为问题空间赋予额外的结构真正有价值的reasoning token,应该是那些迫使模型构建新的内部结构、发现新的模式、提炼更抽象规律的token。它们的特征,就是生成时需要动用深层网络的全部计算能力(高DTR),因为浅层的模式匹配已经不够用了。

而且,从中我们也可以改变对智能的认知。即它不是关于处理多少信息,而是关于创造多少结构。AlphaZero通过自博弈创造围棋策略,人类科学家通过实验创造物理理论,语言模型通过深层推理创造问题的结构化表征,它们的本质是一样的,都是计算受限的智能体在试图提取世界的可压缩规律。

如果把这场从CoT到overthinking再到深度思考的演变放在更大的历史背景下,它其实是AI系统从能力驱动向资源理性转型的一个缩影。早期的深度学习革命解决的是能不能的问题——能不能识别图像、能不能生成文本、能不能下赢围棋。Test-time compute革命推动的是"能不能做更难的任务"——能不能证明数学定理、能不能写出无bug的代码、能不能规划复杂项目。

但到了当下,当这些能力逐渐成熟后,边际问题变成了「怎样做最经济」。如何用最少的计算达到相同质量,如何根据任务难度动态分配资源,如何避免在无用的方向上浪费计算。

Overthinking问题的凸显,正是这个转型期的必然产物。

从这个角度看,DTR和epiplexity不仅是测量工具,更是一种新的设计哲学。它们告诉我们,思考的价值不在于生成了多少文本,而在于文本背后调用了多少结构性计算,以及这些计算能在多大程度上迁移到新任务。

这才是从Think Long到Think Deep的真正飞跃,也是一个在token越来越紧张的世界中,解决算力瓶颈的有效方式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国人大代表、广汽集团董事长冯兴亚:建议将广东、广州打造为先行先试样板,让自动驾驶“跑”起来

全国人大代表、广汽集团董事长冯兴亚:建议将广东、广州打造为先行先试样板,让自动驾驶“跑”起来

时代财经
2026-03-06 20:12:10
外媒:泽连斯基向欧尔班发出直接威胁,欧尔班、欧盟回应

外媒:泽连斯基向欧尔班发出直接威胁,欧尔班、欧盟回应

环球网资讯
2026-03-06 22:22:31
刺杀特朗普?

刺杀特朗普?

新动察
2026-03-06 08:35:43
伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

哲叔视野
2026-03-06 09:26:23
恭喜!亚洲杯8强诞生4席,中国女足1/4决赛对手敲定,4选1

恭喜!亚洲杯8强诞生4席,中国女足1/4决赛对手敲定,4选1

何老师呀
2026-03-06 18:31:16
长城汽车董事长魏建军就海报抄袭路虎致歉:审核把关不严,愿承担此次事件带来的全部法律与经济责任

长城汽车董事长魏建军就海报抄袭路虎致歉:审核把关不严,愿承担此次事件带来的全部法律与经济责任

极目新闻
2026-03-06 20:03:45
虎跳峡落水失踪男子遗体找到 救援人员:打捞工作正在进行

虎跳峡落水失踪男子遗体找到 救援人员:打捞工作正在进行

红星新闻
2026-03-06 18:25:17
名场面!乌克兰大使公开拒吊唁伊朗高层,字字戳心撕破伪善面具

名场面!乌克兰大使公开拒吊唁伊朗高层,字字戳心撕破伪善面具

老马拉车莫少装
2026-03-06 13:45:05
戏子当道,是央国企管理中的一大痛点

戏子当道,是央国企管理中的一大痛点

细说职场
2026-03-06 20:01:27
特朗普,派“蒋介石”上前线?

特朗普,派“蒋介石”上前线?

中国新闻周刊
2026-03-06 15:27:37
全国人大代表戴茵建议不对70岁以上老人开自动续费

全国人大代表戴茵建议不对70岁以上老人开自动续费

IT之家
2026-03-06 14:41:03
山姆1.38公斤冰块卖37.9元,消费者称比冰块融化速度慢,而且颜值高,门店工作人员:销量不错,现货极少

山姆1.38公斤冰块卖37.9元,消费者称比冰块融化速度慢,而且颜值高,门店工作人员:销量不错,现货极少

观威海
2026-03-04 10:39:05
女子退婚不退彩礼,男子将硫酸倒进小舅子嘴里,让他用彩礼钱整容

女子退婚不退彩礼,男子将硫酸倒进小舅子嘴里,让他用彩礼钱整容

阅微札记
2026-03-06 11:40:57
伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

东极妙严
2026-03-06 15:09:57
重力炸弹即将大规模上场,波斯面临更大的压力

重力炸弹即将大规模上场,波斯面临更大的压力

高博新视野
2026-03-06 17:49:29
1.5亿惊天摊牌!克洛普硬刚皇马,曼联截胡藏惊天棋局

1.5亿惊天摊牌!克洛普硬刚皇马,曼联截胡藏惊天棋局

卿子书
2026-03-06 09:18:28
李嘉诚再开金口:未来十年,中国近一半家庭,将面临6大难题?

李嘉诚再开金口:未来十年,中国近一半家庭,将面临6大难题?

巢客HOME
2026-03-07 00:25:03
耿爽,有新职

耿爽,有新职

南方都市报
2026-03-06 16:43:06
曝特斯拉已清空加拿大Model 3库存,将待售美制车型全部运回美国

曝特斯拉已清空加拿大Model 3库存,将待售美制车型全部运回美国

IT之家
2026-03-06 23:18:29
中国造红旗导弹被击毁!

中国造红旗导弹被击毁!

烽火观天下
2026-03-06 20:23:13
2026-03-07 03:59:00
呼呼历史论
呼呼历史论
分享有趣的历史
428文章数 16543关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
艺术
房产
亲子
手机

家居要闻

暖棕撞色 轻法奶油风

艺术要闻

惊艳水彩画!简约笔触与透光感让人叹服!

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

亲子要闻

警惕急性喉炎,儿童健康

手机要闻

荣耀600系列曝光:9000mAh+2亿像素+超声波指纹,这波堆料太狠

无障碍浏览 进入关怀版