来源:市场资讯
(来源:科技行者)
![]()
这项由Snowflake AI Research完成的研究于2026年6月22日发布于arXiv预印本平台,论文编号为arXiv:2606.22936,有兴趣深入了解的读者可通过该编号查询完整论文。
假设你雇了一位侦探帮你查案。案发第一天,侦探看了几条线索后,心里已经认定是隔壁邻居干的。接下来几天,不管你塞给他多少新线索,他都会想方设法把这些线索往"邻居有罪"的方向解读。他看起来逻辑严密、结论一贯,让你以为他胸有成竹——但他其实已经在第一天就停止了真正的推理,后面不过是在为最初那个草率的判断找补。
这就是这项研究所揭示的大型语言模型(也就是ChatGPT、Llama这类AI)在复杂任务中的一种隐秘失败方式,研究者称之为"过早承诺"。更麻烦的是,这种失败方式几乎不会触发任何警报——AI给出的答案看起来完全正常,甚至每次都一模一样。只有深入AI的"大脑内部",才能发现它其实早就"认死理"了。
一、AI侦探的隐秘毛病:表面一致,内里已死
当AI被要求做多步骤推理任务时,比如回答"某个历史人物在哪个城市出生,那个城市的市长是谁"这类需要分步查找的问题,AI并不是一次性给出答案的。它会像侦探一样,一步一步思考、查资料、再思考、再查资料,直到认为自己找到了答案。
这种工作方式被称为"ReAct框架",可以把它理解为一个循环执行的思考-行动-观察三步骤。每一个循环叫做"一步",第四步就是第四个循环。在实验里,AI最多被允许走25步才强制停止。
研究团队发现,某些AI在走到第四步左右的时候,已经在脑子里悄悄"锁定"了一个方向,后面无论看到什么新信息,它的内心世界其实已经不再真正开放了。对外,它还在认认真真地继续查资料、继续推理;对内,它已经变成了那个认定邻居有罪的侦探,只是在表演推理的过程。
研究者把这种现象叫做"代表性承诺"——AI在内部已经稳定下来、不再动摇了。表面上看不出来,但通过检测AI神经网络深处的激活状态可以发现。
二、测量"认死理":把AI的脑电波拍下来比较
研究者设计了一个颇为聪明的实验方法,核心思路就像给同一道题拍多张X光,然后比较这些X光片的相似程度。
具体来说,他们让同一个AI模型用同一个问题重复跑10次,每次跑的时候温度参数设置为0.5(温度在这里控制AI回答的随机性,设为0意味着每次一模一样,设为1意味着每次差异很大,0.5是一个适中的值,保证每次跑都会有一定差异)。然后,在第四步结束的那个时刻,研究者提取AI某一层神经网络的"激活状态"——这个激活状态可以理解为一个几千维度的数字向量,是AI当时"脑子里在想什么"的数字化快照。
接下来,研究者计算同一个问题10次跑的10个快照之间的相似程度,用的是一个叫"余弦相似度"的指标,可以简单理解为两个向量方向的一致程度,越接近1说明越相似,越接近0说明越不同。把所有配对的相似度平均起来,就得到了这个问题的"激活相似度"。
这个数字越高,说明AI不管走哪条路,到第四步时脑子里想的东西都高度一致——也就是说,AI已经在内部收敛到了同一个判断,不再因为走不同的路径而产生不同的想法。
研究者随后把激活相似度和另一个叫"行为变异系数"(简称CV)的指标放在一起比较。CV衡量的是10次跑步数上的波动程度,步数越一致说明AI的行为越稳定,CV越小;步数波动越大说明AI每次走的路径很不一样,CV越大。
实验结论出来了:激活相似度越高的问题,CV越小。相关系数r=-0.35,这是一个中等强度的负相关。换句话说,AI脑子里越快收敛统一,它的行为就越趋于一致,对外表现出的路径就越稳定。
三、信号的"指纹":时机精准,位置固定
仅仅发现两个数字之间有关联还不够,研究者进一步追问:这个信号是在什么时间、AI哪个位置出现的?
研究团队对所有步骤(第1到第5步)和多个神经网络层(从第0层到第80层,每隔8层取一个)做了系统性扫描,共检验了66个"时间×位置"的组合。结果发现,这个信号不是均匀分布在整个推理过程中的,而是高度集中在第4步、网络的第32到第80层之间,最强点在第40层(r=-0.348,p=0.0006)。
这个发现很重要,因为它意味着"过早承诺"不是随机噪音,而是一个有特定时空"指纹"的真实现象。就像验血要在特定时间抽特定部位的血一样,捕捉AI的承诺信号也有它的黄金窗口。
为了确认这个峰值不是碰巧挑了一个最漂亮的数字,研究者做了10000次随机打乱验证(排列检验),并对66个组合用Bonferroni方法做了多重比较校正(简单说,就是给统计门槛调得更严格,防止因为测了太多次而碰巧出现假阳性)。结论经得起这些严格检验,第4步/第40层的信号在所有校正后仍然显著(校正后p=0.0003)。
从时间维度来看,信号在第1步和第2步几乎不存在,第3步开始出现,第4步达到顶峰,第5步开始减弱。这个模式非常符合直觉:侦探刚开始调查时方向未定,中途某个时刻看到关键线索后认定了方向,之后就不再开放了。
四、排除干扰:不是题难了就这样,也不是因为看了相同的资料
发现了信号,下一步要证明这个信号不是被其他因素带出来的假象。研究者做了几层验证。
其次,研究者检查了一个最自然的竞争解释:因为不同次数的跑步可能检索到了相同的文档,所以看了一样的材料、自然想出一样的答案、激活状态也就相似了。为了排除这种可能,研究者用三种方式测量了不同跑步之间检索到的文档重叠程度(Jaccard重叠度、TF-IDF余弦相似度、搜索词重叠度)。控制文档相似度之后,激活相似度与CV的关系有所减弱,但在文档高度重叠的那组问题里仍然能预测行为一致性(偏相关r=-0.31,p=0.003;高重叠子组r=-0.47,p=0.011)。唯一让信号消失的情况是把全文TF-IDF相似度完全纳入控制,研究者也坦诚地承认:在自然条件下,"读了相似的材料导致想法相似"这个解释确实能解释部分现象,要完全排除还需要做专门的控制实验(固定检索文档、只让推理过程变化)。
此外,研究者也排除了问题长度、上下文长度、第3步思考长度等表面特征的干扰作用——这些指标与行为CV都没有显著相关(r均在0.10到0.12之间,p均不显著)。
五、最关键的发现:承诺不分对错,认死理的AI不知道自己对不对
这是整个研究里最核心、也是最让人警惕的发现:激活相似度高(AI脑子里已经收敛)并不意味着AI是对的,也不意味着AI是错的。
研究者把100道题分成三类:承诺且正确(10次运行中正确率超过80%,且行为一致)、承诺且错误(10次运行中正确率低于20%,且行为一致)、未承诺且错误(正确率低但行为不一致)。他们比较了承诺且正确和承诺且错误这两组问题的激活相似度——结果发现,这两组在激活相似度上几乎没有区别(Llama模型:0.935 vs 0.903,p=0.30;Qwen模型:0.968 vs 0.952,p=0.46)。
用侦探比喻来说:一个认定正确答案的侦探和一个认定错误答案的侦探,他们脑子里的状态看起来是一样的。外部观察者无法通过AI的内部激活状态分辨它是"自信地对"还是"自信地错"。
这个发现彻底颠覆了一种常见的直觉——很多人认为,如果AI每次都给出一样的答案,那就意味着它大概率是对的。但事实是,这种一致性只能告诉你AI已经"认死理"了,无法告诉你它认的那条"死理"是不是正确的。
六、跨模型、跨任务:这不是某一个AI的特殊问题
为了确认这个现象不是Llama模型独有的怪癖,研究团队在另外两个架构完全不同的模型上重复了实验。
Phi-3-Medium-14B是微软开发的较小模型,只有40层,维度也更小。它在第4步的信号稍弱(r=-0.36),但最强的信号出现在第5步(r=-0.58),比两个大模型晚了一步。研究者把这解释为:较小的模型需要多走一步才能完成内部的收敛——就像经验少的侦探需要更多线索才能下定判断。
三个模型峰值所在的层深度各不相同:Llama在50%深度,Qwen在80%深度,Phi-3在40%深度。这说明承诺这种现象存在于不同架构中,但收敛的具体"位置"是跟架构绑定的,没有一个统一的神经网络层。
七、实时监控系统:在AI"认死理"的时候及时发警报
发现了这个信号,自然要想办法用上它。研究者训练了一个逻辑回归分类器,专门在AI走完第4步的那个时刻读取激活状态,预测这次任务最终会不会得到一致的结果。
结果相当出色。用层级相似度曲线作为特征,在最严格的基准上(五等分取头尾,去掉中间60%模糊样本),预测准确率达到AUROC=0.97(AUROC是衡量分类器好坏的指标,0.5是随机猜测,1.0是完美预测)。换成更严格的一半对一半分法,Llama的最佳特征达到AUROC=0.85,Qwen达到0.88。
作为对比,如果用问题长度(这是在AI开始运行之前就能获得的唯一表面特征)来预测,AUROC只有0.52到0.65——约等于随机猜测。激活状态信号明显优于任何表面特征。
更实用的是,这个监控系统不需要跑满10次才能判断。把运行次数从10次减到3次,AUROC只降到0.81(±0.07),依然相当有用。一个模拟的"早退出"系统——一旦AI被判定为已经承诺,就不再继续跑更多次——在节省29%计算量的同时,准确率仍然比简单多数投票高出20个百分点。
八、能不能用来决定"多算几次"?诚实的失败报告
研究者还尝试了一个更大胆的应用:既然信号能告诉我们AI还没稳定下来,是不是可以用它来决定哪些题值得花更多计算资源重新跑几次(自洽性采样),从而提升整体正确率?
在HotpotQA上这个问题没有意义——Llama在这个数据集上本来就答对了91%,多跑几次也没什么提升空间。所以研究者换用了MuSiQue,一个更难的多跳问答数据集(共150题,Llama单次运行只能答对59%)。
结果喜忧参半。固定在第4步读取信号在MuSiQue上效果不佳,因为MuSiQue的推理链有15到22步,第4步时承诺信号还没出现,跟最终是否需要重跑毫无关系。改成在推理链的最后一步读取信号,相关性有所恢复(r=0.48),但实际收益有限:把额外算力分配给"还没稳定"的题目,比固定样本自洽性采样好1.5到3.5个百分点——看起来不错,但一个更简单的基准方法——"答案已经出来3次了就停止"的输出层自适应一致性——在超过3次样本之后就能追上甚至超过激活信号方法。隐藏状态信号只在极低预算(约2次样本)时占优。
研究者在论文里直接承认了这一点,没有回避,把它作为诚实的负面结果报告出来,并指出这是未来工作需要解决的问题。
九、主动干预:用一段话把AI从"认死理"中拉回来
既然过早承诺是一个问题,能不能在AI还没"认死理"之前就采取干预?研究者在第3步(比通常收敛时间提前一步)向AI插入了一段专门的提示语,内容是:"根据你目前收集到的证据,承诺一个解决这个问题的具体推理策略。在你下一个想法中清楚地说明你承诺的策略,然后贯彻执行。不要改变策略或重新开始;在你已经学到的基础上继续推进。"
为了排除"多了几个字本身"的影响,研究者设计了一个等长的填充对照提示,内容是无意义的鼓励性废话,字数与承诺提示完全一样,但完全不含策略固定的含义。
三组对比(标准控制组、填充对照组、承诺提示组)跑了100道HotpotQA题,每道跑10次。结论如下:填充组相比控制组,行为CV反而有上升趋势(+18%,p=0.071,不显著),说明在第3步随便插一段话会干扰正常推理节奏;承诺提示组相比填充组,行为CV下降了28%(d=0.33,p=0.001,经过多重比较校正后仍显著),行动序列多样性下降了24%;三组的准确率没有任何一组有显著差异。
这最后一点极为重要,也是研究者反复强调的。承诺干预使AI更一致了,但对正确率毫无影响。原因是:承诺干预放大的是AI已有的倾向——本来倾向于答对的变得更稳定地答对,本来倾向于答错的变得更稳定地答错,两者在总体正确率上相互抵消。这不是一个让AI变聪明的工具,这是一个让AI变得更"认死理"(不管对错)的工具。
在激活状态层面,三组条件在第3步之前的激活相似度曲线完全重合,在第4步之后才分叉:承诺组最高(0.995),填充组居中(0.979),控制组最低(0.922)。时间锁定效应明显,分叉恰好出现在干预注入后的下一步。
十、承诺是一个线性方向:AI的"认死理指数"可以被测量
研究者还从几何角度验证了一个更深层的结构性发现:承诺在AI的激活空间里可以用一个线性方向来描述。
他们定义了一个"承诺方向向量":承诺且正确的问题的平均激活状态,减去未承诺且错误的问题的平均激活状态,就得到这个向量。实验发现,这个向量与激活状态空间的第一主成分方向高度一致(余弦相似度=-0.98,第一主成分解释了53%的方差),而且与"简单题 vs 难题"的差异方向也几乎一致(余弦相似度=0.95)。
把100道题的激活状态投影到这个方向上,能够预测行为CV(r=-0.32,p=0.001)。在Qwen模型上,相同操作的相关系数更强(r=-0.59)。两个模型的承诺方向经过数学对齐之后,相关性只有适中的水平(余弦相似度=0.19),说明两个模型都发展出了自己的承诺方向,但这个方向的具体朝向是跟各自的架构绑定的,不是通用的。研究者把这个情况比作跨语言表示学习中的现象:不同语言的模型都学到了相似的语义结构,但具体的向量坐标系并不一一对应。
一次单层激活引导实验(把承诺方向向量直接加进推理过程中)的结果参差不齐:5道题里有2道成功减少了行为波动,3道没有效果甚至略微增加了波动。研究者把这解释为:承诺不是集中在单个神经网络层的,而是分布在多个层和步骤中。提示语之所以有效,是因为它在第3步就改变了模型生成的内容,从而影响了后续所有层的激活状态;而单层引导在第4步才介入,时机偏晚,作用面也太窄。
归根结底,这项研究最珍贵的地方,是它做到了大多数AI研究没做到的一件事:把一个不可见的、难以用传统指标捕捉的失败模式,变成了可测量、可监控、部分可干预的东西。过早承诺既不是崩溃也不是乱答,它是一种危险的稳定——AI带着一个也许是错误的答案,有条不紊地走完了全程,让人毫无察觉。
现在我们知道,可以在AI走完第4步的时候读取它的神经激活状态,判断它是否已经"认死理"。如果已经认死了,多跑几次没有意义,该让人类或外部系统来核验了;如果还没认死,额外的采样可能真的有帮助。这不能让AI变得更聪明,但可以让AI的使用者知道什么时候需要保持警惕。
当然,研究本身也保持了清醒的认识:所有测试都在问答类任务上进行,代码编写、数学推理、实体操作类任务还没有验证;所有实验只用了一个温度参数0.5,其他温度的情况未知;检索文档的干扰作用只是部分排除,干净的控制实验还没有做;承诺干预的效果对标准智能体来说并不稳健(校正后不显著)。研究者把这些都写进了局限性部分,没有夸大自己的发现。
Q&A
Q1:什么是大模型的"过早承诺"问题?
A:过早承诺是指AI在执行多步骤推理任务时,在推理链的早期阶段(比如第4步)就在内部锁定了一个解读方向,后续即使获得新信息也不再真正改变判断。从外部看AI还在继续推理,但实际上内部已经停止开放地探索了。这种失败模式不会触发任何警报,因为AI的行为看起来依然连贯、答案依然给出,所以传统的正确率评估完全发现不了这个问题。
Q2:激活相似度信号能判断AI答对了吗?
A:不能。这是这项研究最核心的发现之一。激活相似度高(代表AI内部收敛了)无法区分AI是"自信地对"还是"自信地错"。承诺且正确和承诺且错误的问题,其激活相似度数值几乎一样。这个信号只能告诉你AI是否已经停止了真正的探索,而无法告诉你它最终站稳的那个立场是不是正确的。
Q3:承诺提示干预能提高AI的准确率吗?
A:不能。承诺提示只能让AI的行为更一致,而不能让它更正确。本来倾向于答对的题,会更稳定地答对;本来倾向于答错的题,也会更稳定地答错。两者在总体准确率上互相抵消,三组实验条件的准确率没有任何统计上的显著差异。这个干预是一个"放大器",放大AI已有的倾向,而不是一个"纠错器"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.