OpenAI新定价让GPT-5.4聊天成本高达80美元，谷歌新论文或许能解围|算法|推理|智能体|神经网络|知名企业|openai

分享至

腾讯前沿科技论文解读专栏，在代码与商业的交汇处，寻找AI的确定性。

文｜博阳

编辑｜徐青阳

在过去的几年里，更完善高效的基建（infra）一直在压低人工智能的token成本，各家都在压低价格这个赛道上前进。

但最近OpenClaw等具有强大 Agent 能力的现象级应用爆火，API （应用程序接口）账单却迎来了逆势飙升。除了 Agent 运作本身带来的海量上下文堆叠外，还有一个隐藏在背后的吞金兽，即越来越长、甚至走向失控的「思维链」（Chain-of-Thought, CoT）。

自从 OpenAI 的 o1 模型掀起了测试时计算（Test-time compute）的革命以来，多想一会儿表现更好似乎成了通往通用人工智能的万能钥匙。到如今，当我们调用旗舰级推理模型时，它们在后台的思考时间确实呈指数级增长，动辄吐出成千上万字的内心独白。OpenAI在2025年1月的财报电话会上透露，o1系列的平均单次请求token消耗是GPT-4o的2.7倍，而在某些编程任务上这个倍数可以冲到五倍甚至更高。

而且这个趋势完全没有停下来的倾向。比如今天新发布的GPT 5.4 Pro花了5分18s，80美元，来回答一个Hi的招呼。

这么长的思维链，真的都有用吗？它什么时候才有用？我们究竟怎样才能让模型思考得少而精？这个问题从o1诞生之初就困扰着研究者，现象解读和解决方法一直都有，但它们都没有完全解决如何去选择有效的思考token的问题。到目前为止，业界的主流方法依然是路由，即模型自行判断是否需要思考。

2026年2月，来自Google的一篇论文《Think Deep, Not Just Long》给出了一种更本质的解决方法。

简单来讲，就是看模型思考有没有用，就要看它想的深不深。

更多不一定更好

Chain-of-Thought的到来其实比GPT还早。2022年，Google的研究者们发表的两篇论文几乎同时确立了CoT作为推理范式的地位。第一篇《Chain-of-Thought Prompting》展示了通过在few-shot示例中加入推理链，可以让大模型在算术、常识、符号推理等任务上实现跨越式提升。在某些设置下，准确率能从接近零跳到60%以上。第二篇《Zero-shot CoT》则提出了知名的「Let's think step by step」。把它加在Prompt后面，就能激活模型的多步推理能力。

这两个发现迅速成为行业共识，几乎所有需要复杂推理的应用都开始默认启用CoT。研究者们自然地认为，既然CoT有效，那么更长的CoT应该更有效。

2023年到2024年上半年，大量工作围绕如何让模型生成更长、更精细的推理链展开。有的通过提示工程诱导更详细的分解，有的通过强化学习奖励更长的CoT流，有的则在训练时用大模型生成的长推理链蒸馏小模型。这种对长度的追求在o1发布时达到了巅峰，它引导的test-time compute革命，核心就是在推理时生成更长的内部思考。

发现问题

但在距离o1还有半年的2024年夏天，来自不同机构的研究者就开始质疑这些思考的有效性了。

比如，斯坦福的一个团队在分析o1和Claude的推理行为时注意到，对于简单的小学算术题，这些模型往往会生成数百甚至上千tokens的推理文本，但其中大部分是重复验算、自我质疑、多种解法尝试，而人类解答这些题只需要两三步口算。

当他们手动剪短这些冗长推理时，答案的正确率并没有下降，甚至有时还会轻微上升。这说明，模型可能并不真正需要那么多思考，它只是被后训练的奖励驱使着不断生成。

2025年5月，一篇题为《When More is Less》的论文为这个现象提供了更精确的刻画。用控制实验构造了不同长度的推理链，并在多个难度梯度的任务上绘制出长度-准确率曲线。他们发现，思维链的长度与最终结果的准确率之间其实是一个倒U型曲线。

在不超过U高点的区间内增加思考步骤确实有帮助，但超过这个区间后，准确率开始单调下降。而且这个最优长度会随任务难度和模型能力变化。对于更难的问题，最优长度向右移；但对于能力更强的模型，最优长度反而向左移，似乎更强的模型更懂得点到为止。

论文作者将这个现象称为simplicity bias。当模型已经掌握了解题的本质，继续生成只是在累积噪声和干扰。一旦超过某个临界点，模型就会陷入一种名为过度思考（Overthinking）的泥潭。在这种反向扩展（Inverse scaling）的区间里，你花真金白银买来的多余 Token，不仅没有增加智能，反而降低了正确率。

解剖COT

那么，这些动辄几万字的超长 Token，到底都花在了哪里？

长推理链的形成主要有三种模式，它们都会遇到Overthinking的问题。

第一种是线性展开。模型一步步推进,每一步都生成新的中间结果,就类似于打草稿。这是最经典的CoT形态。这里的Overthinking问题，主要出在模型往往不知道何时该停笔。已经算出答案了还在继续验算,或者用三种方法重复解同一道题。

第二种是反思循环。模型生成初步答案后会触发自我质疑机制,不断生成自我纠正文本。这在复杂问题上确实有价值,但在简单问题上也反思，就Overthinking了。

第三种是多路径采样。为了提升鲁棒性,系统会让模型生成十几个甚至几十个不同的推理轨迹,最后通过投票选出最一致的答案。这种方法在解决特别复杂的问题时确实有效，但代价是成本呈几何级数暴涨。而且这些候选推理轨迹里有相当一部分都很不靠谱，无法有效剔除它们就造成了Overthinking。

《When More is Less》的作者在分析倒U型曲线的右半段时发现,准确率下降的样本中,90%以上都包含大量的重复验证和无效反思。这意味着,Overthinking的本质是想重复了。模型在已经掌握答案的情况下,被训练机制驱使着不断生成变体和确认,而这些冗余正是拖累准确率的元凶。

理解了这三种机制及其失控模式,才能有针对性地设计控制策略。

控制长度的尝试

到2025年中，学术界和工业界对overthinking已经形成了共识。问题开始从「是否存在overthinking」转移到「如何精确识别和控制它」。

最直接的办法就是设置硬性限制。比如《Token-Budget-Aware LLM Reasoning》这样的方法会在提示词里明确告诉模型「你只有这么多字可以用」，迫使它精简表达。但这种简单粗暴的方式有个致命问题，难题解不出来了。

于是更好的解决方法是让系统动态判断何时该停止。《REFRAIN: Reasoning Efficiency via Fine-grained Reflection and Adaptive Inference》提出的方法是，在推理过程中实时监测冗余信号。当模型开始重复验证、打转反思或者陷入自我怀疑的循环时，系统就会果断喊停。这种停止策略可以在不改动模型本身的情况下，把token消耗削减20%到55%，同时还能维持甚至提升准确率。

另一条思路是路由。DynaThink和DAST这样的框架会给每个问题做个快速评估，如果是2+3等于几这种送分题，直接输出答案就行；如果是复杂的奥数题，再启动完整的推理链条和多路径采样。但当年GPT 5用上路由之后疯狂误判难度的灾难表现，正说明这种方法也并不完美。

对于依赖多样采样和投票的高算力模式，研究者们发明了早停机制。《Early-Stopping Self-Consistency》(ESC) 会在采样过程中持续监测，一旦多个答案已经形成稳定共识，就没必要继续浪费算力生成更多样本了。在GSM8K这样的数学基准上，这能把采样次数砍掉80%。

更激进的方法是从源头改造模型本身。比如有一派研究者把希望寄托在后训练上，比如在《Let's Verify Step by Step》论文中，他们希望用过程奖励模型PRM来解决一切问题。一旦模型被训练的会按照最优解方法给出答案，那自然不会写一堆废话。或者用某种精选出来的短小但正确的方法微调模型，让它输出更近似。但PRM的设计或者蒸馏微调，到现在依然是非常难控制的过程。

虽然方法很多，但以上所有这些方法都面临一个共同的困境，即它们都没有特别可靠的信号来判断「何时继续思考有价值、何时只是在堆砌无用文本」。

当前的解决方案大多依赖表面特征，比如重复模式、置信度变化、一致性收敛、历史统计。这些都是间接指标，多少有点隔岸观火。

那么，什么才是区分有效思考和无效冗余的本质指标？

寻找有用的思考

谷歌这篇论文给出方法是，想要最直观的找到有效思考的证据，那就直接把探针插进Transformer架构的深处去，观察它在生成每个词时到底有没有在真正动脑子。

当大模型生成一个词（Token）时，这个信号要在它体内经过几十甚至上百层（Layers）神经网络的层层传递与计算。这篇论文的研究人员发现了生成不同的词，在模型内部经历的挣扎程度是完全不一样的。

对于一些简单的语法词、套话，或者模型已经烂熟于心的常识，比如and、is、或者数学公式中的=，它的预测概率在 Transformer 的极浅层就已经锁定。后续几十层的庞大算力，对这个词来说仅仅是走个过场，根本没有发生实质性的计算修改。

但对于那些真正需要推理的关键tokens，比如算式中的数字、逻辑关系词、或者答案本身，模型的预测会一直修正到很深的层才收敛。

研究人员用数学散度测量中间层与最终输出之间的分布差异，提出了「深度思考率」（DTR）指标。它的定义是在一段文本中，有多少比例的token是直到网络深处才停止摇摆的？

如果大部分token都需要深层计算才能敲定，DTR就高；如果都是浅层就能搞定的套话，DTR就低。

这个指标也可以解释了前面很多基础性的困惑。

为什么长度与准确率负相关？ 因为冗长推理链中充斥着"let me reconsider..."、"wait, maybe..."这类浅层套话，它们拉长序列但不产生实质思考。

为什么短链也能保持高准确率？ 因为这些链高度浓缩，几乎每个token都需要深层计算，DTR接近上限。

论文给了个典型的例子。回答同一个几何题，错误样本用了27724个tokens，DTR只有13.9%；正确样本只用3725个tokens，DTR达到19.0%。前者90%都是废话，后者句句是干货。

为了证明真的找准了标准，他们在2024和2025的AIME数学竞赛、2025年HMMT、以及研究生水平的GPQA科学问答中，测试了GPT-OSS、DeepSeek-R1、Qwen3等多个推理模型家族。结果DTR与准确率完全正相关。

至此，我们可以确定，DTR 确实为我们提供了一个基于模型内部动力学机制、而非表面字数的思考质量标尺。

基于DTR，论文还提出了Think@n方法，专门优化最烧钱的多重采样模式。传统做法是让模型生成几十个完整推理链再投票，Think@n只让每个线程先吐出50个词，立刻计算DTR。那些DTR极低、明显在背套话的线程被掐断，算力只留给开头就展现强深层计算的高潜力候选。实验显示，这能用一半token达到或超过传统方法的性能。

然而，这篇论文依然留下了一个巨大的遗憾。它仅仅停留在了一个裁判的角色，在测试时阶段对已经生成的候选者进行截断。

但未来路径其实是很明显的，我们完全可以将 DTR 转化为强化学习（RL）阶段的奖励信号。如果我们在未来的模型对齐阶段，不再仅仅奖励模型得出了正确答案，而是将高 DTR 浓度作为奖励函数之一，我们就能从基因层面上改变模型的行为模式。这将逼迫模型学会把庞大的计算量压缩到极其精炼的高质量输出中。

这才是从更长的思考到更深的思考本质转变。不再用token数量衡量智能，而是用计算密度。

何为最高效的思考？DTR确实提供了一个很好的标准去观察模型是否在做更有意义的思考，从根本上解决了Overthinking识别的问题。

但它并没有回答，为什么这些想的更深的思考，效果更好。

最近卡耐基梅隆和NYU的一篇论文《从熵到表观复杂性：为计算受限的智能体重塑信息论》，为我们提供了一个信息论上的线索。

传统信息理论关注的核心是随机信息，也就是熵（entropy）。香农告诉我们，一段文本的信息量取决于它的不可预测性。熵（entropy）越高，信息越充足。

然而这根本解释不AlphaGo这样深度学习的自博弈模型。你给它输入的内容只是游戏规则，熵很低，但通过计算（推理过程），模型则能掌握非常多样的输出。

论文认为，关键在于所有的智能体，其算力都是有限的。我们不可能无穷无尽的从熵中学习，因此对这样的系统而言，数据的价值不在于它的随机性（熵），而在于它包含的可学习的结构复杂度。

对于算力受限的观察者（比如人类棋手或AI模型）来说，暴力穷举整个博弈树是不现实的，所以必须提取更高阶的抽象规律。这些规律的描述长度，远远超过了游戏规则本身。

这就是COT有用的原因。

他们把这个结构复杂度，定义成表观复杂性（Epiplexity）。

一串随机生成的API密钥可能有很高的熵，但Epiplexity接近于零，因为模型从中学不到任何可迁移的东西。相反，一段算法代码的熵可能不高，但Epiplexity很高，因为理解它需要模型构建复杂的内部表征。

这就解释了为什么高DTR的推理更有效，因为它们在产生更多的Epiplexity。

当模型进行深层推理时，它不是在简单地检索记忆或应用表面规则，而是在实时构建新的认知结构。

传统理论会说这不可能，因为确定性变换不能增加信息。但Epiplexity告诉我们，这些策略不是凭空出现的，而是计算过程本身创造的结构。

这篇论文把推理过程重新定义为结构信息的生成器。

传统观点认为，推理是在搜索解空间。但Epiplexity视角告诉我们，好的推理不仅仅是搜索，更是在动态改变解空间的表征方式。就像数学家不是在暴力枚举定理，而是在发明新的数学对象、新的证明技巧，让原本复杂的问题变得简单。

这些步骤的共同特点是，它们都在为问题空间赋予额外的结构。真正有价值的reasoning token，应该是那些迫使模型构建新的内部结构、发现新的模式、提炼更抽象规律的token。它们的特征，就是生成时需要动用深层网络的全部计算能力（高DTR），因为浅层的模式匹配已经不够用了。

而且，从中我们也可以改变对智能的认知。即它不是关于处理多少信息，而是关于创造多少结构。AlphaZero通过自博弈创造围棋策略，人类科学家通过实验创造物理理论，语言模型通过深层推理创造问题的结构化表征，它们的本质是一样的，都是计算受限的智能体在试图提取世界的可压缩规律。

如果把这场从CoT到overthinking再到深度思考的演变放在更大的历史背景下，它其实是AI系统从能力驱动向资源理性转型的一个缩影。早期的深度学习革命解决的是能不能的问题——能不能识别图像、能不能生成文本、能不能下赢围棋。Test-time compute革命推动的是"能不能做更难的任务"——能不能证明数学定理、能不能写出无bug的代码、能不能规划复杂项目。

但到了当下，当这些能力逐渐成熟后，边际问题变成了「怎样做最经济」。如何用最少的计算达到相同质量，如何根据任务难度动态分配资源，如何避免在无用的方向上浪费计算。

Overthinking问题的凸显，正是这个转型期的必然产物。

从这个角度看，DTR和epiplexity不仅是测量工具，更是一种新的设计哲学。它们告诉我们，思考的价值不在于生成了多少文本，而在于文本背后调用了多少结构性计算，以及这些计算能在多大程度上迁移到新任务。

这才是从Think Long到Think Deep的真正飞跃，也是一个在token越来越紧张的世界中，解决算力瓶颈的有效方式。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.