以色列理工学院与IBM研究院联合揭秘：大语言模型真的“知道”自己会不会答错吗？|信号|探针|实验|数学

分享至

这项由以色列理工学院（Technion – Israel Institute of Technology）与IBM研究院（IBM Research）联合开展的研究，以预印本形式发表于2026年4月14日，论文编号为arXiv:2604.12373，有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整原文。

**一、当AI"照镜子"：它能看见自己的盲点吗？**

每个人都有过这样的经历：考完试走出考场，有时候心里笃定某道题答对了，有时候又隐隐感觉哪里不对劲。这种"对自己答案的感觉"，心理学上叫做内省（introspection）——人类通过感知自己内心的状态，来判断自己是否真正理解了某件事。

那么，现在风靡全球的大语言模型（也就是我们常说的大型AI聊天系统，比如那些能写文章、做数学题的AI），它们有没有类似的能力呢？当AI回答一个问题时，它的"内心"是否存在某种信号，能告诉自己"这次我回答对了"或者"这次我可能搞砸了"？

这个问题听起来有点哲学，但它其实非常实际。如果AI真的拥有这种"内部感知"，我们就可以在AI说错话之前就察觉到风险，从而更好地防止AI胡说八道（也就是所谓的"幻觉"问题）。反之，如果AI的"内部状态"和它的正确率毫无关系，那我们就不能依靠AI自己来做质量把关。

这支由以色列理工学院和IBM研究院组成的研究团队，决定用一套严谨的实验来回答这个问题。他们的核心发现颇为耐人寻味：AI确实在某些领域拥有这种"特权式的自我感知"，但并不是在所有领域都有——而且，过去那些声称AI没有这种能力的研究，其实犯了一个被忽视的方法论错误。

**二、"特权知识"是什么意思？**

在哲学领域，有一个概念叫"认识特权"（epistemic privilege），意思是说，某个人对自己内心状态拥有独一无二的访问权限——这些内部信息是外人无法直接观察到的。你头疼，只有你自己能感受到那种疼痛，医生只能通过你的描述和外部检查来推断。

这篇研究把同样的逻辑搬到了AI身上。当一个AI模型处理一个问题时，它的内部会产生一系列复杂的数学运算，研究者把这些内部状态称为"隐藏状态"（hidden states）。这些隐藏状态里，是否藏着外界无法得知的信息——比如这个AI这次能不能答对——就是这篇论文要探究的核心。

研究团队把这类信息定义为"特权知识"：只有AI自己的内部状态才能揭示的、关于自身答题正确性的信号。为了检验这种特权知识是否存在，他们设计了一个巧妙的对比实验。

具体来说，他们训练了一种叫做"探针"（probe）的小分类器。探针就像一个小侦探，专门盯着AI处理问题时留下的内部痕迹，然后预测：这个AI这次会不会答对？关键是，他们训练了两类探针：一类使用AI自己的内部状态来做预测（自我探针），另一类使用另一个不同AI模型的内部状态来做预测（外部探针）。如果自我探针明显比外部探针更准确，那就说明AI确实拥有只有自己才能"感知到"的特权知识。

两者之间的性能差距，他们称之为"溢价差距"（premium gap）——就像是说，使用"内部消息"究竟能比使用"公开信息"多赚多少钱。

**三、第一个发现：表面上，AI看起来没什么"内部消息"**

研究团队选用了三个规模相近的主流AI模型：Qwen-2.5-7B、Llama-3.1-8B和Gemma-2-9B，并在五个不同的数据集上测试它们。这五个数据集涵盖两类任务：一类是考察事实知识的（Mintaka、TriviaQA、HotPotQA，类似于问答类知识竞赛题），另一类是考察数学推理能力的（MATH、GSM1K，类似于数学应用题）。

按照常规做法，他们先在完整的测试集上比较自我探针与外部探针的准确率。结果乍一看令人沮丧：在数学推理任务上，外部探针的表现几乎与自我探针完全持平，溢价差距近乎为零；在事实知识任务上，自我探针只有微弱的优势，而且在三个模型中有两个模型的自我探针甚至不如来自其他AI的外部探针。

这个结果似乎印证了此前一些研究的结论：AI并不具备关于自身正确性的特权知识。外部观察者和AI自身一样能判断它会不会答对。然而，这支研究团队没有就此打住，因为他们发现了一个被所有人忽视的重大漏洞。

**四、关键陷阱：当大家都答一样的题，"内部消息"就被淹没了**

考虑这样一个场景：你和你的朋友一起参加同一场知识竞赛。竞赛结束后，有人想判断你是否真的理解了某道题，于是他去问你的朋友："你觉得这道题，他答对了吗？"在大多数情况下，你的朋友能给出相当准确的猜测，因为——这道题是公开的，大家看到的题目是一样的，一道普遍被认为简单的题，大家都答对；一道公认很难的题，大家都答错。

这个逻辑放到AI身上同样成立。研究团队发现，这三个AI模型在回答同一批问题时，它们互相之间的答题正确率高度一致：在事实知识类问题上，模型之间大约有80%的问题答得一样（要么都对，要么都错）；在数学推理类问题上，这个比例也高达75%。

这种高度一致性制造了一个严重的干扰因素。当外部探针使用另一个AI的内部状态来预测目标AI的正确性时，它其实是在利用一个便捷的"代理信号"：另一个AI的答题情况本身就能高度预测目标AI的答题情况，因为大家大多数时候答得一样。这就好比一个侦探不需要掌握内部证据，只需要知道"大家都这么干"，就能猜对大多数情况。

这意味着，在这种高度一致的环境下，即使AI真的拥有某种只有自己才能感知到的内部信号，这个信号也会被外部模型的"公共信息优势"所淹没，从而在统计结果上看不出任何溢价差距。这正是过去那些研究得出"AI没有特权知识"结论的根本原因——他们的评估方式本身就存在系统性偏差。

研究团队还注意到一个有趣的现象：在他们的实验中，Gemma模型的表现特别强势——作为外部探针时，它在线性探针实验的9个事实知识配对中有7个拔得头筹，在非线性MLP探针实验中更是全部9个配对都是第一。但这种"强势"到底意味着什么呢？一种可能是：Gemma确实没有特权知识，它只是对问题难度的公共信息编码得更好；另一种可能是：Gemma自己也有特权知识，而且由于它与目标模型高度一致，它的私有信号作为代理也非常有效，从而掩盖了目标模型自身的内部信号。这两种解释在标准测试集上根本无法区分。

**五、破解陷阱：只盯住"意见分歧"的题目**

正因如此，这支研究团队发明了一个精妙的解决方案：他们专门挑出那些"意见分歧"的题目来做评估。所谓分歧子集（disagreement subset），就是目标AI和外部AI在这道题上给出了相反的正确性结果的那部分问题——比如，Llama答对了，但Qwen答错了。

这个设计的逻辑非常清晰：在这些分歧题目上，外部AI的答题情况与目标AI完全相反，所以外部探针无法再借助"大家答得一样"这个代理信号来取巧。如果外部探针此时还能预测准确，那就说明它真的在读取目标AI的公共信息；但如果此时只有自我探针还能保持优势，那就说明AI的内部状态中确实存在外人无法获取的私有信号。

值得注意的是，他们在执行这个方案时有一个重要的设计细节：探针的训练依然使用完整的训练集，而不是只用分歧子集。这是因为，如果用分歧子集来训练，自我探针和外部探针的标签就会形成完美的负相关，外部探针只需要反转自己的预测就能做到"正确"，这会造成人为的假象。所以，训练在全集上进行，评估在分歧子集上进行——这样才能真正隔离出特权知识的信号。

五个数据集中分歧子集的规模大致在整体数据的20%左右，数量仍然足够进行统计分析。以三个模型两两配对为例，在TriviaQA这个数据集上，Gemma与Llama之间的分歧子集有1588个问题，Gemma与Qwen之间有2238个，Llama与Qwen之间有2320个，提供了充分的统计基础。

**六、真正的答案：事实知识有特权，数学推理没有**

在分歧子集上的评估结果，揭示了一个非常鲜明的领域分化。

在事实知识任务（Mintaka、TriviaQA、HotPotQA）上，自我探针对外部探针的溢价差距在统计上是显著的，大约在5%左右，而且这个结论在全部9个实验配置（3个目标模型×3个数据集）中都成立，无论使用线性探针还是非线性MLP探针，结论都保持一致。以Gemma模型在TriviaQA上的表现为例，分歧子集上的溢价差距为0.034（6.8%），达到统计显著性（p<0.05，经过Bonferroni-Holm多重比较矫正）。这意味着，在那些Gemma和其他AI"意见不同"的问题上，只有依靠Gemma自己的内部状态，才能更好地预测Gemma这次会不会答对——这就是特权知识的有力证据。

换句话说，AI在回答事实类知识问题时，它的内部确实藏着一种"只有自己才知道"的信号：它能感受到自己的记忆检索成功了还是失败了，而这种感受是外部观察者无法复制的。

但在数学推理任务（MATH、GSM1K）上，情况截然不同。即使在分歧子集上，外部探针的表现也与自我探针持平甚至更好——在GSM1K上，外部探针经常明显优于自我探针，溢价差距是负的。这意味着，在数学推理领域，AI并不拥有关于自身正确性的特权知识。一道数学题的难度特征——它的题目结构、涉及的运算类型、问题的复杂程度——这些都是"公共信息"，任何AI看到这道题都能大致判断它有多难，而无需依赖某个特定AI的内部私有状态。

这两个发现合在一起，给出了一个清晰的结论：特权知识是领域特异的。它存在于事实知识检索中，但不存在于数学推理中。

研究团队还额外测试了一个规模更大的模型——Qwen-3-32B（参数量约为主要测试模型的四倍），结论与主要实验保持一致。在完整测试集上没有明显的溢价差距，但在分歧子集上，事实知识任务中自我探针在TriviaQA和HotPotQA上仍然表现出统计显著的优势，而数学推理任务依然没有特权知识的迹象。

**七、特权知识藏在哪一层？**

确认了特权知识的存在之后，研究团队进一步追问：这种特权信号究竟是从AI网络的哪一层开始出现的？

大语言模型的内部结构可以理解为一栋多层楼的建筑，信息从底层逐步向上传递，每一层都对信息进行加工和转化。研究团队对每隔五层取一次探针（加上最后一层），将自我探针与最佳外部探针在各层的性能差距绘制成曲线，纵轴是分歧子集上的溢价差距，横轴是标准化的网络深度（0表示最浅层，1表示最深层）。

在事实知识任务上，这条曲线呈现出一个一致的上升趋势：在最浅的几层，溢价差距接近于零甚至略为负值，这说明最底层的表示主要编码的是"公共信息"，比如问题的语法结构和表面特征，外部模型同样能读取。随着层数加深，大约从第10到15层开始（对应标准化深度约0.25到0.40），溢价差距开始稳定地正向增加，并持续向更深层延伸。三个模型（Gemma、Llama、Qwen）在三个事实数据集上都呈现出这种一致的模式，尽管具体曲线形态略有差异。

这个模式与AI研究领域关于知识存储机制的已有发现高度吻合。有研究表明，AI中的知识回忆过程主要发生在中间层，信息在那里从主题词流向答案词，这与这篇论文发现的"特权优势从中间层开始出现并随深度增强"完全对应。可以这样理解：在浅层，AI只是在解析"这是一个关于什么的问题"，这对所有AI来说都一样；到了中间层，AI开始真正激活自己的记忆库去检索答案，而这个检索成功与否的信号，是专属于这个特定AI的私有状态，外部AI根本没有这方面的信息。

在数学推理任务上，MATH的溢价差距曲线在整个网络深度范围内都在零附近随机波动，没有任何上升趋势；GSM1K的溢价差距在大多数层都是负值，意味着外部探针在绝大多数层都比自我探针更准。无论在哪一层，数学推理都没有出现稳定的自我优势，进一步证实了该领域不存在特权知识这一结论。

**八、是什么在驱动正确率的预测？**

除了探究特权知识的位置，研究团队还追问了一个更基础的问题：探针在预测AI答题正确性时，到底依赖的是什么信息？

为此，他们设计了一个"词汇剥离"控制实验。他们把问题中的所有语法结构都去掉，只保留命名实体（比如人名、地名）和名词，然后用这个"极简版"问题输入AI，提取隐藏状态，再用这些隐藏状态训练探针，预测原始问题的答题正确性。

这个实验的逻辑在于：如果概念层面的熟悉度（比如AI见过多少关于某个历史人物的文本）是正确率的主要驱动因素，那么即使剥去所有语法，只留下关键词，探针也应该能保留大部分预测能力。

结果显示，在事实知识数据集（Mintaka、TriviaQA、HotPotQA）上，词汇剥离版本的探针分别保留了53.7%、75.0%和73.5%的原始预测性能（相对于随机基线0.5 AUC的差距）。这说明，事实知识任务的正确率在很大程度上确实取决于AI对相关概念的熟悉程度——哪个名词出现在问题里，AI就自动激活与该词相关的知识储备，这本身就是预测能否答对的重要线索。

MATH数据集上的词汇剥离也保留了75.6%的预测性能，原因在于数学题中的专业词汇（比如"特征值"、"渐近线"）本身就携带了难度信息——这类词出现的题目天然就比较难。

但GSM1K（小学到初中难度的应用题）却完全相反：词汇剥离版本的探针性能几乎跌至随机水平（AUC约0.49）。这是因为GSM1K的题目通常涉及"储蓄账户"、"苹果"、"50美元"之类的日常词汇，这些词本身不携带任何难度信号；真正决定这道题难不难的，是题目的逻辑结构和运算步骤的复杂性，而这些信息在去掉语法之后就荡然无存了。

**九、为什么这件事对你我都有意义**

说到底，这项研究的意义远不止于学术层面的知识满足感。

它首先澄清了一个方法论问题。过去很多研究声称AI对自身正确性没有特权感知，但这篇论文揭示，这些研究的评估方式存在根本性缺陷——模型间的高度一致性使外部探针可以"免费搭车"，伪装成与自我探针等效。正确的评估方式应该专门针对模型间存在分歧的样本，才能真正隔离出内部信号。

更实际的含义是：在AI的事实知识领域，模型内部确实藏有一种可以被提取和利用的"自我感知"信号。这对AI幻觉检测（也就是判断AI什么时候在编造信息）具有直接价值。现有的很多幻觉检测方法依赖外部手段，而这项研究表明，在事实问答场景中，直接读取AI自身的内部激活状态可以提供额外的、不可替代的信息。

但这种信号是有边界的——在数学推理任务上，AI并没有这种内部感知，题目本身的公共结构特征就决定了一切。这意味着，如果你想监控一个AI在数学计算上会不会出错，仅靠观察它的内部状态是不够的，你需要更多地关注问题本身的性质。

这项研究本身的分析是相关性的，研究团队坦诚地指出，他们尚未通过干预实验来验证因果关系。一个颇具想象力的后续方向是所谓的"激活引导"：如果研究者能找到正确性信号在残差流中的方向，然后人为地沿这个方向推动激活值，是否真的能让AI更频繁地答对？这种实验将直接检验这条内部信号的因果力量，而非仅仅观察它的存在。

研究团队还指出了他们工作的其他局限：主要实验的模型规模集中在70亿到90亿参数之间，更大规模的模型可能呈现不同的模式；研究范围局限于事实知识和数学推理这两类任务，编程、常识推理等混合领域还有待探索；探针方法本质上只能检测线性或有限非线性的信号，更复杂的内部表示方式可能还需要其他工具来挖掘。

归根结底，这篇论文讲的是一个关于"自知之明"的故事——不是人类的，而是AI的。事实证明，当AI在检索知识时，它的内部确实留下了只有自己才能感受到的痕迹；但当AI在做数学推理时，它的内心对自己会不会算错这件事，并没有任何特别的洞察，和旁观者一样"盲目"。这个有趣的不对称，或许能帮助我们更清醒地理解AI究竟能在哪些地方"信任自己"，在哪些地方仍需要外部校验。

有兴趣深入了解这项研究的完整细节、数学推导和全部实验数据的读者，可以通过arXiv编号2604.12373找到完整论文。

Q&A

Q1：什么是大语言模型的"特权知识"，为什么它对判断AI是否会答错很重要？

A：大语言模型的"特权知识"指的是藏在AI内部状态中、只有AI自身才能"感知到"的关于自己答题正确性的信号，外部观察者通过查看问题本身或其他AI的表现都无法获得这些信息。它的重要性在于：如果这种信号真实存在，就可以在AI给出错误答案之前从其内部状态中提取预警，这对防止AI在事实问答中"一本正经地胡说八道"（即幻觉问题）具有直接实用价值。

Q2：为什么以前的研究说AI没有特权知识，而这篇研究说有？

A：以前的研究在完整测试集上做评估，但忽略了一个关键问题：不同AI模型对同一批问题的答题正确率高度一致（约75%到80%的问题大家都答一样），这使得"外部AI的答题情况"本身就是一个强力代理信号，让外部探针看起来和自我探针一样好。这篇研究专门针对不同AI给出相反结果的"分歧题目"进行评估，消除了这个代理信号，才真正隔离出了AI内部私有信号的贡献。

Q3：大语言模型在数学题上为什么没有关于自身正确性的特权知识？

A：在数学推理任务中，一道题能不能做对，主要取决于题目本身的结构复杂性和运算步骤的难度，这些特征是"公开可见"的，任何AI看到这道题都能对难度做出大致相同的判断，不需要依赖某个特定AI的内部私有状态。换句话说，数学题的难度是一种客观的公共属性，而不是某个AI独有的主观感受，所以外部观察者和AI自身对"会不会答对"的判断能力是相当的。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.