AI侦探破案失败？Snowflake研究揭示：...|向量|信号|推理|新论文|神经网络

分享至

来源：市场资讯

（来源：科技行者）

这项由Snowflake AI Research完成的研究于2026年6月22日发布于arXiv预印本平台，论文编号为arXiv:2606.22936，有兴趣深入了解的读者可通过该编号查询完整论文。

假设你雇了一位侦探帮你查案。案发第一天，侦探看了几条线索后，心里已经认定是隔壁邻居干的。接下来几天，不管你塞给他多少新线索，他都会想方设法把这些线索往"邻居有罪"的方向解读。他看起来逻辑严密、结论一贯，让你以为他胸有成竹——但他其实已经在第一天就停止了真正的推理，后面不过是在为最初那个草率的判断找补。

这就是这项研究所揭示的大型语言模型（也就是ChatGPT、Llama这类AI）在复杂任务中的一种隐秘失败方式，研究者称之为"过早承诺"。更麻烦的是，这种失败方式几乎不会触发任何警报——AI给出的答案看起来完全正常，甚至每次都一模一样。只有深入AI的"大脑内部"，才能发现它其实早就"认死理"了。

一、AI侦探的隐秘毛病：表面一致，内里已死

当AI被要求做多步骤推理任务时，比如回答"某个历史人物在哪个城市出生，那个城市的市长是谁"这类需要分步查找的问题，AI并不是一次性给出答案的。它会像侦探一样，一步一步思考、查资料、再思考、再查资料，直到认为自己找到了答案。

这种工作方式被称为"ReAct框架"，可以把它理解为一个循环执行的思考-行动-观察三步骤。每一个循环叫做"一步"，第四步就是第四个循环。在实验里，AI最多被允许走25步才强制停止。

研究团队发现，某些AI在走到第四步左右的时候，已经在脑子里悄悄"锁定"了一个方向，后面无论看到什么新信息，它的内心世界其实已经不再真正开放了。对外，它还在认认真真地继续查资料、继续推理；对内，它已经变成了那个认定邻居有罪的侦探，只是在表演推理的过程。

研究者把这种现象叫做"代表性承诺"——AI在内部已经稳定下来、不再动摇了。表面上看不出来，但通过检测AI神经网络深处的激活状态可以发现。

二、测量"认死理"：把AI的脑电波拍下来比较

研究者设计了一个颇为聪明的实验方法，核心思路就像给同一道题拍多张X光，然后比较这些X光片的相似程度。

具体来说，他们让同一个AI模型用同一个问题重复跑10次，每次跑的时候温度参数设置为0.5（温度在这里控制AI回答的随机性，设为0意味着每次一模一样，设为1意味着每次差异很大，0.5是一个适中的值，保证每次跑都会有一定差异）。然后，在第四步结束的那个时刻，研究者提取AI某一层神经网络的"激活状态"——这个激活状态可以理解为一个几千维度的数字向量，是AI当时"脑子里在想什么"的数字化快照。

接下来，研究者计算同一个问题10次跑的10个快照之间的相似程度，用的是一个叫"余弦相似度"的指标，可以简单理解为两个向量方向的一致程度，越接近1说明越相似，越接近0说明越不同。把所有配对的相似度平均起来，就得到了这个问题的"激活相似度"。

这个数字越高，说明AI不管走哪条路，到第四步时脑子里想的东西都高度一致——也就是说，AI已经在内部收敛到了同一个判断，不再因为走不同的路径而产生不同的想法。

研究者随后把激活相似度和另一个叫"行为变异系数"（简称CV）的指标放在一起比较。CV衡量的是10次跑步数上的波动程度，步数越一致说明AI的行为越稳定，CV越小；步数波动越大说明AI每次走的路径很不一样，CV越大。

实验结论出来了：激活相似度越高的问题，CV越小。相关系数r=-0.35，这是一个中等强度的负相关。换句话说，AI脑子里越快收敛统一，它的行为就越趋于一致，对外表现出的路径就越稳定。

三、信号的"指纹"：时机精准，位置固定

仅仅发现两个数字之间有关联还不够，研究者进一步追问：这个信号是在什么时间、AI哪个位置出现的？

研究团队对所有步骤（第1到第5步）和多个神经网络层（从第0层到第80层，每隔8层取一个）做了系统性扫描，共检验了66个"时间×位置"的组合。结果发现，这个信号不是均匀分布在整个推理过程中的，而是高度集中在第4步、网络的第32到第80层之间，最强点在第40层（r=-0.348，p=0.0006）。

这个发现很重要，因为它意味着"过早承诺"不是随机噪音，而是一个有特定时空"指纹"的真实现象。就像验血要在特定时间抽特定部位的血一样，捕捉AI的承诺信号也有它的黄金窗口。

为了确认这个峰值不是碰巧挑了一个最漂亮的数字，研究者做了10000次随机打乱验证（排列检验），并对66个组合用Bonferroni方法做了多重比较校正（简单说，就是给统计门槛调得更严格，防止因为测了太多次而碰巧出现假阳性）。结论经得起这些严格检验，第4步/第40层的信号在所有校正后仍然显著（校正后p=0.0003）。

从时间维度来看，信号在第1步和第2步几乎不存在，第3步开始出现，第4步达到顶峰，第5步开始减弱。这个模式非常符合直觉：侦探刚开始调查时方向未定，中途某个时刻看到关键线索后认定了方向，之后就不再开放了。

四、排除干扰：不是题难了就这样，也不是因为看了相同的资料

发现了信号，下一步要证明这个信号不是被其他因素带出来的假象。研究者做了几层验证。

其次，研究者检查了一个最自然的竞争解释：因为不同次数的跑步可能检索到了相同的文档，所以看了一样的材料、自然想出一样的答案、激活状态也就相似了。为了排除这种可能，研究者用三种方式测量了不同跑步之间检索到的文档重叠程度（Jaccard重叠度、TF-IDF余弦相似度、搜索词重叠度）。控制文档相似度之后，激活相似度与CV的关系有所减弱，但在文档高度重叠的那组问题里仍然能预测行为一致性（偏相关r=-0.31，p=0.003；高重叠子组r=-0.47，p=0.011）。唯一让信号消失的情况是把全文TF-IDF相似度完全纳入控制，研究者也坦诚地承认：在自然条件下，"读了相似的材料导致想法相似"这个解释确实能解释部分现象，要完全排除还需要做专门的控制实验（固定检索文档、只让推理过程变化）。

此外，研究者也排除了问题长度、上下文长度、第3步思考长度等表面特征的干扰作用——这些指标与行为CV都没有显著相关（r均在0.10到0.12之间，p均不显著）。

五、最关键的发现：承诺不分对错，认死理的AI不知道自己对不对

这是整个研究里最核心、也是最让人警惕的发现：激活相似度高（AI脑子里已经收敛）并不意味着AI是对的，也不意味着AI是错的。

研究者把100道题分成三类：承诺且正确（10次运行中正确率超过80%，且行为一致）、承诺且错误（10次运行中正确率低于20%，且行为一致）、未承诺且错误（正确率低但行为不一致）。他们比较了承诺且正确和承诺且错误这两组问题的激活相似度——结果发现，这两组在激活相似度上几乎没有区别（Llama模型：0.935 vs 0.903，p=0.30；Qwen模型：0.968 vs 0.952，p=0.46）。

用侦探比喻来说：一个认定正确答案的侦探和一个认定错误答案的侦探，他们脑子里的状态看起来是一样的。外部观察者无法通过AI的内部激活状态分辨它是"自信地对"还是"自信地错"。

这个发现彻底颠覆了一种常见的直觉——很多人认为，如果AI每次都给出一样的答案，那就意味着它大概率是对的。但事实是，这种一致性只能告诉你AI已经"认死理"了，无法告诉你它认的那条"死理"是不是正确的。

六、跨模型、跨任务：这不是某一个AI的特殊问题

为了确认这个现象不是Llama模型独有的怪癖，研究团队在另外两个架构完全不同的模型上重复了实验。

Phi-3-Medium-14B是微软开发的较小模型，只有40层，维度也更小。它在第4步的信号稍弱（r=-0.36），但最强的信号出现在第5步（r=-0.58），比两个大模型晚了一步。研究者把这解释为：较小的模型需要多走一步才能完成内部的收敛——就像经验少的侦探需要更多线索才能下定判断。

三个模型峰值所在的层深度各不相同：Llama在50%深度，Qwen在80%深度，Phi-3在40%深度。这说明承诺这种现象存在于不同架构中，但收敛的具体"位置"是跟架构绑定的，没有一个统一的神经网络层。

七、实时监控系统：在AI"认死理"的时候及时发警报

发现了这个信号，自然要想办法用上它。研究者训练了一个逻辑回归分类器，专门在AI走完第4步的那个时刻读取激活状态，预测这次任务最终会不会得到一致的结果。

结果相当出色。用层级相似度曲线作为特征，在最严格的基准上（五等分取头尾，去掉中间60%模糊样本），预测准确率达到AUROC=0.97（AUROC是衡量分类器好坏的指标，0.5是随机猜测，1.0是完美预测）。换成更严格的一半对一半分法，Llama的最佳特征达到AUROC=0.85，Qwen达到0.88。

作为对比，如果用问题长度（这是在AI开始运行之前就能获得的唯一表面特征）来预测，AUROC只有0.52到0.65——约等于随机猜测。激活状态信号明显优于任何表面特征。

更实用的是，这个监控系统不需要跑满10次才能判断。把运行次数从10次减到3次，AUROC只降到0.81（±0.07），依然相当有用。一个模拟的"早退出"系统——一旦AI被判定为已经承诺，就不再继续跑更多次——在节省29%计算量的同时，准确率仍然比简单多数投票高出20个百分点。

八、能不能用来决定"多算几次"？诚实的失败报告

研究者还尝试了一个更大胆的应用：既然信号能告诉我们AI还没稳定下来，是不是可以用它来决定哪些题值得花更多计算资源重新跑几次（自洽性采样），从而提升整体正确率？

在HotpotQA上这个问题没有意义——Llama在这个数据集上本来就答对了91%，多跑几次也没什么提升空间。所以研究者换用了MuSiQue，一个更难的多跳问答数据集（共150题，Llama单次运行只能答对59%）。

结果喜忧参半。固定在第4步读取信号在MuSiQue上效果不佳，因为MuSiQue的推理链有15到22步，第4步时承诺信号还没出现，跟最终是否需要重跑毫无关系。改成在推理链的最后一步读取信号，相关性有所恢复（r=0.48），但实际收益有限：把额外算力分配给"还没稳定"的题目，比固定样本自洽性采样好1.5到3.5个百分点——看起来不错，但一个更简单的基准方法——"答案已经出来3次了就停止"的输出层自适应一致性——在超过3次样本之后就能追上甚至超过激活信号方法。隐藏状态信号只在极低预算（约2次样本）时占优。

研究者在论文里直接承认了这一点，没有回避，把它作为诚实的负面结果报告出来，并指出这是未来工作需要解决的问题。

九、主动干预：用一段话把AI从"认死理"中拉回来

既然过早承诺是一个问题，能不能在AI还没"认死理"之前就采取干预？研究者在第3步（比通常收敛时间提前一步）向AI插入了一段专门的提示语，内容是："根据你目前收集到的证据，承诺一个解决这个问题的具体推理策略。在你下一个想法中清楚地说明你承诺的策略，然后贯彻执行。不要改变策略或重新开始；在你已经学到的基础上继续推进。"

为了排除"多了几个字本身"的影响，研究者设计了一个等长的填充对照提示，内容是无意义的鼓励性废话，字数与承诺提示完全一样，但完全不含策略固定的含义。

三组对比（标准控制组、填充对照组、承诺提示组）跑了100道HotpotQA题，每道跑10次。结论如下：填充组相比控制组，行为CV反而有上升趋势（+18%，p=0.071，不显著），说明在第3步随便插一段话会干扰正常推理节奏；承诺提示组相比填充组，行为CV下降了28%（d=0.33，p=0.001，经过多重比较校正后仍显著），行动序列多样性下降了24%；三组的准确率没有任何一组有显著差异。

这最后一点极为重要，也是研究者反复强调的。承诺干预使AI更一致了，但对正确率毫无影响。原因是：承诺干预放大的是AI已有的倾向——本来倾向于答对的变得更稳定地答对，本来倾向于答错的变得更稳定地答错，两者在总体正确率上相互抵消。这不是一个让AI变聪明的工具，这是一个让AI变得更"认死理"（不管对错）的工具。

在激活状态层面，三组条件在第3步之前的激活相似度曲线完全重合，在第4步之后才分叉：承诺组最高（0.995），填充组居中（0.979），控制组最低（0.922）。时间锁定效应明显，分叉恰好出现在干预注入后的下一步。

十、承诺是一个线性方向：AI的"认死理指数"可以被测量

研究者还从几何角度验证了一个更深层的结构性发现：承诺在AI的激活空间里可以用一个线性方向来描述。

他们定义了一个"承诺方向向量"：承诺且正确的问题的平均激活状态，减去未承诺且错误的问题的平均激活状态，就得到这个向量。实验发现，这个向量与激活状态空间的第一主成分方向高度一致（余弦相似度=-0.98，第一主成分解释了53%的方差），而且与"简单题 vs 难题"的差异方向也几乎一致（余弦相似度=0.95）。

把100道题的激活状态投影到这个方向上，能够预测行为CV（r=-0.32，p=0.001）。在Qwen模型上，相同操作的相关系数更强（r=-0.59）。两个模型的承诺方向经过数学对齐之后，相关性只有适中的水平（余弦相似度=0.19），说明两个模型都发展出了自己的承诺方向，但这个方向的具体朝向是跟各自的架构绑定的，不是通用的。研究者把这个情况比作跨语言表示学习中的现象：不同语言的模型都学到了相似的语义结构，但具体的向量坐标系并不一一对应。

一次单层激活引导实验（把承诺方向向量直接加进推理过程中）的结果参差不齐：5道题里有2道成功减少了行为波动，3道没有效果甚至略微增加了波动。研究者把这解释为：承诺不是集中在单个神经网络层的，而是分布在多个层和步骤中。提示语之所以有效，是因为它在第3步就改变了模型生成的内容，从而影响了后续所有层的激活状态；而单层引导在第4步才介入，时机偏晚，作用面也太窄。

归根结底，这项研究最珍贵的地方，是它做到了大多数AI研究没做到的一件事：把一个不可见的、难以用传统指标捕捉的失败模式，变成了可测量、可监控、部分可干预的东西。过早承诺既不是崩溃也不是乱答，它是一种危险的稳定——AI带着一个也许是错误的答案，有条不紊地走完了全程，让人毫无察觉。

现在我们知道，可以在AI走完第4步的时候读取它的神经激活状态，判断它是否已经"认死理"。如果已经认死了，多跑几次没有意义，该让人类或外部系统来核验了；如果还没认死，额外的采样可能真的有帮助。这不能让AI变得更聪明，但可以让AI的使用者知道什么时候需要保持警惕。

当然，研究本身也保持了清醒的认识：所有测试都在问答类任务上进行，代码编写、数学推理、实体操作类任务还没有验证；所有实验只用了一个温度参数0.5，其他温度的情况未知；检索文档的干扰作用只是部分排除，干净的控制实验还没有做；承诺干预的效果对标准智能体来说并不稳健（校正后不显著）。研究者把这些都写进了局限性部分，没有夸大自己的发现。

Q&A

Q1：什么是大模型的"过早承诺"问题？

A：过早承诺是指AI在执行多步骤推理任务时，在推理链的早期阶段（比如第4步）就在内部锁定了一个解读方向，后续即使获得新信息也不再真正改变判断。从外部看AI还在继续推理，但实际上内部已经停止开放地探索了。这种失败模式不会触发任何警报，因为AI的行为看起来依然连贯、答案依然给出，所以传统的正确率评估完全发现不了这个问题。

Q2：激活相似度信号能判断AI答对了吗？

A：不能。这是这项研究最核心的发现之一。激活相似度高（代表AI内部收敛了）无法区分AI是"自信地对"还是"自信地错"。承诺且正确和承诺且错误的问题，其激活相似度数值几乎一样。这个信号只能告诉你AI是否已经停止了真正的探索，而无法告诉你它最终站稳的那个立场是不是正确的。

Q3：承诺提示干预能提高AI的准确率吗？

A：不能。承诺提示只能让AI的行为更一致，而不能让它更正确。本来倾向于答对的题，会更稳定地答对；本来倾向于答错的题，也会更稳定地答错。两者在总体准确率上互相抵消，三组实验条件的准确率没有任何统计上的显著差异。这个干预是一个"放大器"，放大AI已有的倾向，而不是一个"纠错器"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.