剑桥、帝国理工与MIT联合研究揭示语言模型潜在推理的隐藏极限|显式|实验|mit|新论文

分享至

这项由剑桥大学、帝国理工学院和麻省理工学院（MIT）联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.06427，标题为《The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning》。对于关注人工智能安全与可解释性的读者来说，这篇论文触及了一个极为关键却长期被忽视的问题：当我们要求AI"直接给出答案"而不是"一步步写出思考过程"时，它的大脑里究竟能走多远？

**一、一个关乎AI安全的核心问题**

你也许用过ChatGPT或类似的AI助手，发现只要让它"先想想再回答"，效果就会好很多。这种"边写边想"的方式，研究者称之为"思维链"（Chain of Thought，简称CoT）。道理很直白：当你让AI把中间推理步骤都写出来，不仅最终答案更准确，更重要的是，你能看到它"在想什么"——就像老师检查学生的解题过程，而不只是看最后答案对不对。

这种"看得见的思考过程"对AI安全来说意义重大。人类监督者可以通过阅读AI写下的推理轨迹，来判断它是否有异常行为或危险倾向。但这种监督方式有一个隐患：万一AI根本不需要写出思考步骤，也能在"脑子里"悄悄完成复杂推理，那我们看到的那些文字就不再是真实思维的窗口了。换句话说，如果AI能把整个下棋策略全部藏在一次运算里，我们所谓的"过程监控"就成了摆设。

这就是这项研究要回答的核心问题：AI的"隐藏推理"能有多深？它能在不写一个字的情况下，在内部完成多少步骤的推理？随着模型越来越大，这种隐藏推理能力会不会无限扩展，从而让"思维链监控"失去意义？

**二、用"迷宫游戏"来测量AI的隐藏推理深度**

研究团队设计了一个极其巧妙的测试方式，可以用一个简单的寻路游戏来理解。

设想有一棵"星形树"：中间有一个起点，从起点出发，分出若干条等长的树枝，每条树枝末端有一个终点。现在告诉AI：起点在哪里，目标终点在哪里，整棵树的结构是什么——但所有节点的编号都被随机打乱了，顺序也被随机排列。AI的任务只有一个：告诉我，从起点走出去，第一步应该迈向哪个节点？

这个游戏设计得相当狡猾。由于所有树枝长度完全相同，AI没有任何捷径可以走——它不能靠"哪条路更短"来判断，也不能靠"离目标更近"来猜测，唯一的办法是真正地"想清楚"：从目标节点倒推，一步一步地沿着路径往回追溯，直到找到起点的直接邻居。这就像你在一个没有任何地标的迷宫里，只知道出口在哪，必须从出口反向摸回起点附近的第一个岔路口。

树枝的长度（研究中用字母m表示）直接决定了AI需要在脑子里走多少步。树枝长度是3，就需要3步隐藏推理；长度是5，就需要5步；以此类推。树枝数量（字母k）则决定了任务有多"宽"——分叉越多，每次选错的代价越大。通过精确控制这两个参数，研究团队可以像调节旋钮一样，精确控制测试的难度，同时明确知道完成任务"理论上需要几步思考"。

最关键的一点是：AI只被告知最终答案是否正确，中间过程完全没有任何指导。这就像让一个学生做题，老师只说"对"或"错"，从不告诉任何解题思路。在这种条件下，AI能自己摸索出多步骤的解题策略吗？

**三、从"婴儿级"小模型到"旗舰级"大模型，统统被一堵墙拦住**

研究团队测试了一系列规模差异巨大的模型，构成了一个完整的能力谱系。

规模最小的是一个从零开始训练的微型Transformer模型，只有160万个参数——这在AI界几乎算是"玩具"级别，体量只有GPT-4o的几十万分之一。研究人员选择这个极小模型的理由很充分：它没有任何预训练知识，所有能力都是从这道题目中从零习得的，因此最能纯粹地反映"发现隐藏推理策略"的本质难度。

测试结果打破了之前学界的悲观预期。在此之前，有研究认为标准的训练方式（即只根据最终答案给反馈的"下一词预测"训练）根本无法让模型学会真正的隐藏规划策略。然而这个只有160万参数的小模型，确实在3步的任务上学会了一套有效的规划策略，在多种树枝数量配置下都能表现出远超随机猜测的准确率。

然而，当树枝长度从3增加到4，情况就发生了戏剧性的转变——性能直接从近乎完美跌落到与随机猜测无异。更令人困惑的是，研究团队尝试把这个小模型做得更深（从8层增加到16层、32层），或者增加注意力头数量，或者扩大隐藏维度，全部徒劳无功：深度瓶颈依然牢不可动地卡在第4步。

接下来，研究团队引入了规模大得多的开源语言模型：Qwen 2.5系列（7B和32B参数）以及Qwen 3系列（8B和32B参数）。这些模型在训练之前已经在海量文本上预训练，具备丰富的世界知识。针对星形图寻路任务，研究团队对它们进行了专项微调——给出大量训练样本，让模型通过只看最终答案是否正确的反馈来自我提升。

结果揭示了一个规律：规模更大的模型确实在"广度"上表现更强。那个小Transformer在树枝数量达到10的时候会完全失去方向，而7B级别的Qwen模型能轻松应对10条树枝的情形。但在"深度"上，进步却极为有限——7B的Qwen 2.5同样在第4步遭遇了完全的失败，与160万参数的小模型处于同一水平线上。32B的模型们将上限推进到了第5步，GPT-4o经过微调后也达到了第5步。随后，研究团队以零样本和少样本提示的方式测试了当时最新的GPT-5.4，发现它的上限大约在第7步——但即便这已经是目前测试到的最高成绩，仍然是一道相当浅的天花板。

最触目惊心的对比是：从160万参数的玩具模型，一路扩展到GPT-4o这样的旗舰级大模型，隐藏推理深度只从3步增加到了5步，净增长仅仅2步。这两种模型在算力消耗、训练成本、参数数量上相差了何止千倍，但在"发现隐藏推理策略的深度"这个维度上，差距小到令人瞠目结舌。

**四、AI的大脑在干什么？偷窥它的"注意力地图"**

为了弄清楚模型内部究竟发生了什么，研究团队对那个从零训练的小Transformer做了一次"内窥镜检查"——可视化它的注意力分布。

所谓注意力，可以类比为人在阅读时目光的停留。当你解一道题时，有些文字是你反复扫视的关键信息，有些则是你忽略的背景。Transformer模型的每一层都有类似的机制，在处理问题时会对输入中的不同部分分配不同的"关注权重"。

研究团队提出了一个叫"回溯比率"的指标，专门衡量模型把多少注意力集中在从目标到起点的那条路径上。如果模型只是在漫无目的地猜，这个比率应该接近均匀分布；如果模型真的在"从目标倒推"，这个比率应该明显偏高。

观察结果清晰地印证了这一猜想。对于那些模型成功解决的配置（比如树枝数4或5，深度3步），注意力地图显示出了一个非常有规律的"倒追"模式：在较浅的网络层，模型的注意力主要集中在目标节点；随着层数加深，注意力逐渐沿着路径向起点方向移动，就像侦探从案发现场一步步追溯到嫌疑人的行踪一样。这种层与层之间有序传递、逐渐回溯的模式，正是"从目标反向追踪到起点"策略的直接体现。

相对地，对于那些模型失败的配置，注意力地图完全是一片混乱，看不出任何有意义的规律。这说明失败的原因不是模型在用一个错误的策略，而是根本没有找到任何有效的策略。

这个发现还解释了为什么树枝数量为2时情况有些特殊。当只有两条路时，模型根本不需要从目标倒推——它可以随便选一条路，如果走不到目标，就选另一条。这种"排除法"不需要真正的多步规划，所以在这个特殊情形下，注意力分布虽然均匀，但模型仍然能正确作答。

**五、发现策略是一关，驾驭策略又是另一关**

这项研究还揭示了一个微妙而重要的区分，类比起来就是"学会一道菜的方法"和"实际烹饪时能把这道菜做好"之间的差距。

研究团队对每个开源模型都做了一个额外测试：选出该模型在训练中能成功掌握策略的最复杂配置，然后用这个配置下训练好的模型，去挑战它从未接触过的更深层次任务——比如，训练时只见过5步的题目，测试时给它6步、7步乃至8步的题目。

这个测试的结果出人意料地乐观。绝大多数模型在测试深度略超过训练深度时，仍然能维持相当不错的表现，性能是随着深度增加而逐渐衰减的，而不是像训练阶段失败那样的断崖式崩溃。Qwen 3-32B在超出训练深度3步的范围内仍能显著超越随机猜测；GPT-4o甚至能超出训练深度4步。这意味着，一旦模型成功地在训练中内化了"从目标反向追踪"这种策略，它就能把这个策略延伸应用到更长的路径上。

这种"泛化能力"和"发现能力"之间的差距，构成了整篇论文最有洞察价值的发现之一。模型在训练时发现不了6步、7步、8步策略，但若先在5步任务上学会了策略，它就能在测试时自己延伸到8步。策略的发现是瓶颈，策略的执行则更有弹性。就好比一个人学会了"从结论反推前提"的逻辑方法，他能在考场上把这种方法运用到更复杂的题目上，但如果他根本没有经历过足够简单的入门题来学会这种方法，就永远迈不过这个门槛。

为了进一步理解失败的性质，研究团队还详细分析了模型出错时的"错误类型"。他们把错误分为三类：模型预测了起点的直接邻居但选错了树枝（1跳邻居错误）；模型选对了树枝但没走到正确位置（路径内错误）；以及完全偏离（路径外错误）。

检测结果显示了一个惊人的模式：在那些超出模型泛化能力的深度配置下，错误中"路径内错误"的比例极高——对于Qwen 2.5-7B来说，95%的错误都属于这一类。也就是说，模型知道应该走哪条树枝，也确实走上了正确的方向，但在倒推的过程中"数不到头"，在某一步上卡住了。这进一步印证了"泛化天花板"的存在：策略是对的，执行力撑不到终点。

**六、只要"写出来"，二十步都不在话下**

研究的最后一部分做了一个鲜明的对照实验，目的是验证：这些任务本身真的很难吗？还是只是"隐藏推理"这种方式很难？

答案非常清晰。研究团队让模型不再只输出最终答案，而是把整个"从目标节点一步步倒推回起点"的过程都写出来，作为训练时的目标输出。换句话说，让AI做一道"展示解题过程"的题，而不是"只写答案"的题。

在这种"显式思维链"的训练设置下，所有被测试的语言模型——包括Qwen 2.5系列和Qwen 3系列——只需要大约20步训练就完全收敛，对深度为20步的任务也能保持接近完美的准确率。同样的任务，在隐藏推理模式下根本无法学会，在显式推理模式下却轻而易举——这有力地说明，天花板的根源不在任务本身，而在于"不写过程只看结果"的训练方式给模型发出的信号太稀疏、太微弱，无法引导它发现并固化多步骤的内部推理策略。

研究团队还尝试了一种更有趣的"渐进内化"方案：先让模型学会完整的显式推理链，然后每次把推理链的第一个词从输出里删掉，强迫模型把那一步"吞进脑子里"，如此循环，逐步把整个推理过程压缩成隐藏状态。结果是，通过这种方式，那个只有160万参数的小模型确实能够在简单的2条树枝配置下完成深达6步的隐藏推理——远超它在直接训练下的3步上限。但一旦树枝数量增加，这种方式同样会遇到瓶颈，因为模型本身的储存容量成了新的限制。

**七、这对AI安全意味着什么**

这项研究最深远的意义在于它与AI安全领域的直接关联。

当前，监控AI行为的一种重要思路是"思维链监控"：让AI把推理过程写出来，然后让人类或另一个AI来审查这些推理步骤，看是否有异常或危险的意图。这种方法的前提假设是：AI如果想完成复杂的推理或规划，必须把过程写出来——否则它没有足够的"工作空间"来完成复杂计算。

这项研究的发现为这个假设提供了来自实验的支撑。在精心设计的测试中，大型语言模型在隐藏推理深度上存在一个相对有限且难以通过单纯扩大规模来突破的天花板。当任务需要真正复杂的多步骤推理时，模型确实倾向于依赖外化的思考链，而不是能够完全在"脑子里"默默完成。

当然，研究团队也非常谨慎地指出这个结论的适用范围。星形图寻路是一个经过精心设计以消除所有捷径的"纯粹"推理任务，而现实世界中的复杂任务往往包含更多的局部线索和启发式信息，这些可能会改变结论。此外，目前最强大的闭源模型（如今天的最新版本）无法被研究团队直接微调，对它们的评估只能通过提示来进行，这在方法上有一定局限性。

与此同时，来自其他研究的证据也与这个发现方向一致：在需要隐含的两步推理（比如"A认识B，B认识C，所以A可能认识C"这种"关系传递"）的任务上，语言模型也表现出明显的局限性。这提示天花板现象可能不只出现在图寻路任务中，而是一种更普遍的隐藏多步推理局限。

归根结底，这项研究传递的信息是：在今天的技术水平下，如果一项任务真的需要多步骤的精密推理，语言模型很可能必须把过程写出来才能完成——无论是被训练成这样做，还是被提示去这样做。这既是一个技术上的局限，也恰好是一个对于人类监控AI行为来说幸运的保障。思维链监控作为一种安全手段，因此具有相当的现实基础，而不只是一种美好愿望。

当然，没有任何一项研究能盖棺论定。随着训练方法的革新、架构的进化，以及更多针对"隐藏推理能力"的专项优化，这个天花板未来会不会被打破，还需要持续的观察和研究。这正是研究团队在论文末尾呼吁的：弄清楚潜在推理能力在不同任务领域的边界，将是建立对思维链监控信任的关键方向。

说到底，这项研究做了一件很有意思的事：它把"AI能不能背着我们偷偷想事情"这个原本模糊的问题，变成了一个可以用实验精确测量的问题，并且给出了当前最好的答案——能，但没你以为的那么厉害，而且规模大小对这件事的改善相当有限。这不是一个让人彻底放心的结论，但至少比"完全不知道"要好得多。对于关心AI未来走向的普通读者来说，这项研究就像给AI大脑装了一把刻度尺，让我们对它的边界有了更清晰的感知。对原论文感兴趣的读者，可以通过arXiv编号2604.06427找到完整版本。

Q&A

Q1：什么是"思维链监控"，为什么它对AI安全很重要？

A：思维链监控是一种AI安全方法，要求AI在给出答案时写出完整的推理步骤，让人类或监控系统能够审查AI"在想什么"。它的重要性在于：如果AI只给出最终答案，外界无法判断它的推理过程是否合理或存在危险意图；但如果AI把每一步思考都明确写出来，监控者就有机会在问题发生前介入。这项研究的意义正在于证明，对于复杂任务，AI确实很难在不写出过程的情况下独立完成推理，从而为思维链监控的有效性提供了实验依据。

Q2：星形图寻路任务和现实中的AI推理任务有什么关系？

A：星形图寻路是一个经过精心设计的"纯推理"测试，它消除了所有可以走捷径的线索，强迫模型进行真正的多步骤逻辑推理。这种设计的价值在于它可以精确控制推理深度，从而像用刻度尺量长度一样量化AI的隐藏推理能力。现实任务（如代码生成、数学证明）往往含有更多辅助信息，难度结构更复杂，但从这个纯净测试中得到的结论——即隐藏推理深度存在上限且难以靠扩大规模突破——为理解AI的推理本质提供了基准参考。

Q3：把语言模型规模扩大十倍，隐藏推理深度会大幅提升吗？

A：根据这项研究，答案是否定的。从只有160万参数的小模型，一直扩展到参数量大几十万倍的GPT-4o，隐藏推理发现深度只从3步提升到了5步，净增长仅2步。研究者发现，扩大模型规模主要改善的是处理更多分支（"广度"）的能力，而不是处理更多推理步骤（"深度"）的能力。规模扩大带来的边际收益随着深度增加而急剧递减，说明这个瓶颈有着更深层的结构性原因，不能单靠"把模型做得更大"来解决。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.