网易首页 > 网易号 > 正文 申请入驻

以色列理工学院与IBM研究院联合揭秘:大语言模型真的“知道”自己会不会答错吗?

0
分享至

这项由以色列理工学院(Technion – Israel Institute of Technology)与IBM研究院(IBM Research)联合开展的研究,以预印本形式发表于2026年4月14日,论文编号为arXiv:2604.12373,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整原文。

**一、当AI"照镜子":它能看见自己的盲点吗?**

每个人都有过这样的经历:考完试走出考场,有时候心里笃定某道题答对了,有时候又隐隐感觉哪里不对劲。这种"对自己答案的感觉",心理学上叫做内省(introspection)——人类通过感知自己内心的状态,来判断自己是否真正理解了某件事。

那么,现在风靡全球的大语言模型(也就是我们常说的大型AI聊天系统,比如那些能写文章、做数学题的AI),它们有没有类似的能力呢?当AI回答一个问题时,它的"内心"是否存在某种信号,能告诉自己"这次我回答对了"或者"这次我可能搞砸了"?

这个问题听起来有点哲学,但它其实非常实际。如果AI真的拥有这种"内部感知",我们就可以在AI说错话之前就察觉到风险,从而更好地防止AI胡说八道(也就是所谓的"幻觉"问题)。反之,如果AI的"内部状态"和它的正确率毫无关系,那我们就不能依靠AI自己来做质量把关。

这支由以色列理工学院和IBM研究院组成的研究团队,决定用一套严谨的实验来回答这个问题。他们的核心发现颇为耐人寻味:AI确实在某些领域拥有这种"特权式的自我感知",但并不是在所有领域都有——而且,过去那些声称AI没有这种能力的研究,其实犯了一个被忽视的方法论错误。

**二、"特权知识"是什么意思?**

在哲学领域,有一个概念叫"认识特权"(epistemic privilege),意思是说,某个人对自己内心状态拥有独一无二的访问权限——这些内部信息是外人无法直接观察到的。你头疼,只有你自己能感受到那种疼痛,医生只能通过你的描述和外部检查来推断。

这篇研究把同样的逻辑搬到了AI身上。当一个AI模型处理一个问题时,它的内部会产生一系列复杂的数学运算,研究者把这些内部状态称为"隐藏状态"(hidden states)。这些隐藏状态里,是否藏着外界无法得知的信息——比如这个AI这次能不能答对——就是这篇论文要探究的核心。

研究团队把这类信息定义为"特权知识":只有AI自己的内部状态才能揭示的、关于自身答题正确性的信号。为了检验这种特权知识是否存在,他们设计了一个巧妙的对比实验。

具体来说,他们训练了一种叫做"探针"(probe)的小分类器。探针就像一个小侦探,专门盯着AI处理问题时留下的内部痕迹,然后预测:这个AI这次会不会答对?关键是,他们训练了两类探针:一类使用AI自己的内部状态来做预测(自我探针),另一类使用另一个不同AI模型的内部状态来做预测(外部探针)。如果自我探针明显比外部探针更准确,那就说明AI确实拥有只有自己才能"感知到"的特权知识。

两者之间的性能差距,他们称之为"溢价差距"(premium gap)——就像是说,使用"内部消息"究竟能比使用"公开信息"多赚多少钱。

**三、第一个发现:表面上,AI看起来没什么"内部消息"**

研究团队选用了三个规模相近的主流AI模型:Qwen-2.5-7B、Llama-3.1-8B和Gemma-2-9B,并在五个不同的数据集上测试它们。这五个数据集涵盖两类任务:一类是考察事实知识的(Mintaka、TriviaQA、HotPotQA,类似于问答类知识竞赛题),另一类是考察数学推理能力的(MATH、GSM1K,类似于数学应用题)。

按照常规做法,他们先在完整的测试集上比较自我探针与外部探针的准确率。结果乍一看令人沮丧:在数学推理任务上,外部探针的表现几乎与自我探针完全持平,溢价差距近乎为零;在事实知识任务上,自我探针只有微弱的优势,而且在三个模型中有两个模型的自我探针甚至不如来自其他AI的外部探针。

这个结果似乎印证了此前一些研究的结论:AI并不具备关于自身正确性的特权知识。外部观察者和AI自身一样能判断它会不会答对。然而,这支研究团队没有就此打住,因为他们发现了一个被所有人忽视的重大漏洞。

**四、关键陷阱:当大家都答一样的题,"内部消息"就被淹没了**

考虑这样一个场景:你和你的朋友一起参加同一场知识竞赛。竞赛结束后,有人想判断你是否真的理解了某道题,于是他去问你的朋友:"你觉得这道题,他答对了吗?"在大多数情况下,你的朋友能给出相当准确的猜测,因为——这道题是公开的,大家看到的题目是一样的,一道普遍被认为简单的题,大家都答对;一道公认很难的题,大家都答错。

这个逻辑放到AI身上同样成立。研究团队发现,这三个AI模型在回答同一批问题时,它们互相之间的答题正确率高度一致:在事实知识类问题上,模型之间大约有80%的问题答得一样(要么都对,要么都错);在数学推理类问题上,这个比例也高达75%。

这种高度一致性制造了一个严重的干扰因素。当外部探针使用另一个AI的内部状态来预测目标AI的正确性时,它其实是在利用一个便捷的"代理信号":另一个AI的答题情况本身就能高度预测目标AI的答题情况,因为大家大多数时候答得一样。这就好比一个侦探不需要掌握内部证据,只需要知道"大家都这么干",就能猜对大多数情况。

这意味着,在这种高度一致的环境下,即使AI真的拥有某种只有自己才能感知到的内部信号,这个信号也会被外部模型的"公共信息优势"所淹没,从而在统计结果上看不出任何溢价差距。这正是过去那些研究得出"AI没有特权知识"结论的根本原因——他们的评估方式本身就存在系统性偏差。

研究团队还注意到一个有趣的现象:在他们的实验中,Gemma模型的表现特别强势——作为外部探针时,它在线性探针实验的9个事实知识配对中有7个拔得头筹,在非线性MLP探针实验中更是全部9个配对都是第一。但这种"强势"到底意味着什么呢?一种可能是:Gemma确实没有特权知识,它只是对问题难度的公共信息编码得更好;另一种可能是:Gemma自己也有特权知识,而且由于它与目标模型高度一致,它的私有信号作为代理也非常有效,从而掩盖了目标模型自身的内部信号。这两种解释在标准测试集上根本无法区分。

**五、破解陷阱:只盯住"意见分歧"的题目**

正因如此,这支研究团队发明了一个精妙的解决方案:他们专门挑出那些"意见分歧"的题目来做评估。所谓分歧子集(disagreement subset),就是目标AI和外部AI在这道题上给出了相反的正确性结果的那部分问题——比如,Llama答对了,但Qwen答错了。

这个设计的逻辑非常清晰:在这些分歧题目上,外部AI的答题情况与目标AI完全相反,所以外部探针无法再借助"大家答得一样"这个代理信号来取巧。如果外部探针此时还能预测准确,那就说明它真的在读取目标AI的公共信息;但如果此时只有自我探针还能保持优势,那就说明AI的内部状态中确实存在外人无法获取的私有信号。

值得注意的是,他们在执行这个方案时有一个重要的设计细节:探针的训练依然使用完整的训练集,而不是只用分歧子集。这是因为,如果用分歧子集来训练,自我探针和外部探针的标签就会形成完美的负相关,外部探针只需要反转自己的预测就能做到"正确",这会造成人为的假象。所以,训练在全集上进行,评估在分歧子集上进行——这样才能真正隔离出特权知识的信号。

五个数据集中分歧子集的规模大致在整体数据的20%左右,数量仍然足够进行统计分析。以三个模型两两配对为例,在TriviaQA这个数据集上,Gemma与Llama之间的分歧子集有1588个问题,Gemma与Qwen之间有2238个,Llama与Qwen之间有2320个,提供了充分的统计基础。

**六、真正的答案:事实知识有特权,数学推理没有**

在分歧子集上的评估结果,揭示了一个非常鲜明的领域分化。

在事实知识任务(Mintaka、TriviaQA、HotPotQA)上,自我探针对外部探针的溢价差距在统计上是显著的,大约在5%左右,而且这个结论在全部9个实验配置(3个目标模型×3个数据集)中都成立,无论使用线性探针还是非线性MLP探针,结论都保持一致。以Gemma模型在TriviaQA上的表现为例,分歧子集上的溢价差距为0.034(6.8%),达到统计显著性(p<0.05,经过Bonferroni-Holm多重比较矫正)。这意味着,在那些Gemma和其他AI"意见不同"的问题上,只有依靠Gemma自己的内部状态,才能更好地预测Gemma这次会不会答对——这就是特权知识的有力证据。

换句话说,AI在回答事实类知识问题时,它的内部确实藏着一种"只有自己才知道"的信号:它能感受到自己的记忆检索成功了还是失败了,而这种感受是外部观察者无法复制的。

但在数学推理任务(MATH、GSM1K)上,情况截然不同。即使在分歧子集上,外部探针的表现也与自我探针持平甚至更好——在GSM1K上,外部探针经常明显优于自我探针,溢价差距是负的。这意味着,在数学推理领域,AI并不拥有关于自身正确性的特权知识。一道数学题的难度特征——它的题目结构、涉及的运算类型、问题的复杂程度——这些都是"公共信息",任何AI看到这道题都能大致判断它有多难,而无需依赖某个特定AI的内部私有状态。

这两个发现合在一起,给出了一个清晰的结论:特权知识是领域特异的。它存在于事实知识检索中,但不存在于数学推理中。

研究团队还额外测试了一个规模更大的模型——Qwen-3-32B(参数量约为主要测试模型的四倍),结论与主要实验保持一致。在完整测试集上没有明显的溢价差距,但在分歧子集上,事实知识任务中自我探针在TriviaQA和HotPotQA上仍然表现出统计显著的优势,而数学推理任务依然没有特权知识的迹象。

**七、特权知识藏在哪一层?**

确认了特权知识的存在之后,研究团队进一步追问:这种特权信号究竟是从AI网络的哪一层开始出现的?

大语言模型的内部结构可以理解为一栋多层楼的建筑,信息从底层逐步向上传递,每一层都对信息进行加工和转化。研究团队对每隔五层取一次探针(加上最后一层),将自我探针与最佳外部探针在各层的性能差距绘制成曲线,纵轴是分歧子集上的溢价差距,横轴是标准化的网络深度(0表示最浅层,1表示最深层)。

在事实知识任务上,这条曲线呈现出一个一致的上升趋势:在最浅的几层,溢价差距接近于零甚至略为负值,这说明最底层的表示主要编码的是"公共信息",比如问题的语法结构和表面特征,外部模型同样能读取。随着层数加深,大约从第10到15层开始(对应标准化深度约0.25到0.40),溢价差距开始稳定地正向增加,并持续向更深层延伸。三个模型(Gemma、Llama、Qwen)在三个事实数据集上都呈现出这种一致的模式,尽管具体曲线形态略有差异。

这个模式与AI研究领域关于知识存储机制的已有发现高度吻合。有研究表明,AI中的知识回忆过程主要发生在中间层,信息在那里从主题词流向答案词,这与这篇论文发现的"特权优势从中间层开始出现并随深度增强"完全对应。可以这样理解:在浅层,AI只是在解析"这是一个关于什么的问题",这对所有AI来说都一样;到了中间层,AI开始真正激活自己的记忆库去检索答案,而这个检索成功与否的信号,是专属于这个特定AI的私有状态,外部AI根本没有这方面的信息。

在数学推理任务上,MATH的溢价差距曲线在整个网络深度范围内都在零附近随机波动,没有任何上升趋势;GSM1K的溢价差距在大多数层都是负值,意味着外部探针在绝大多数层都比自我探针更准。无论在哪一层,数学推理都没有出现稳定的自我优势,进一步证实了该领域不存在特权知识这一结论。

**八、是什么在驱动正确率的预测?**

除了探究特权知识的位置,研究团队还追问了一个更基础的问题:探针在预测AI答题正确性时,到底依赖的是什么信息?

为此,他们设计了一个"词汇剥离"控制实验。他们把问题中的所有语法结构都去掉,只保留命名实体(比如人名、地名)和名词,然后用这个"极简版"问题输入AI,提取隐藏状态,再用这些隐藏状态训练探针,预测原始问题的答题正确性。

这个实验的逻辑在于:如果概念层面的熟悉度(比如AI见过多少关于某个历史人物的文本)是正确率的主要驱动因素,那么即使剥去所有语法,只留下关键词,探针也应该能保留大部分预测能力。

结果显示,在事实知识数据集(Mintaka、TriviaQA、HotPotQA)上,词汇剥离版本的探针分别保留了53.7%、75.0%和73.5%的原始预测性能(相对于随机基线0.5 AUC的差距)。这说明,事实知识任务的正确率在很大程度上确实取决于AI对相关概念的熟悉程度——哪个名词出现在问题里,AI就自动激活与该词相关的知识储备,这本身就是预测能否答对的重要线索。

MATH数据集上的词汇剥离也保留了75.6%的预测性能,原因在于数学题中的专业词汇(比如"特征值"、"渐近线")本身就携带了难度信息——这类词出现的题目天然就比较难。

但GSM1K(小学到初中难度的应用题)却完全相反:词汇剥离版本的探针性能几乎跌至随机水平(AUC约0.49)。这是因为GSM1K的题目通常涉及"储蓄账户"、"苹果"、"50美元"之类的日常词汇,这些词本身不携带任何难度信号;真正决定这道题难不难的,是题目的逻辑结构和运算步骤的复杂性,而这些信息在去掉语法之后就荡然无存了。

**九、为什么这件事对你我都有意义**

说到底,这项研究的意义远不止于学术层面的知识满足感。

它首先澄清了一个方法论问题。过去很多研究声称AI对自身正确性没有特权感知,但这篇论文揭示,这些研究的评估方式存在根本性缺陷——模型间的高度一致性使外部探针可以"免费搭车",伪装成与自我探针等效。正确的评估方式应该专门针对模型间存在分歧的样本,才能真正隔离出内部信号。

更实际的含义是:在AI的事实知识领域,模型内部确实藏有一种可以被提取和利用的"自我感知"信号。这对AI幻觉检测(也就是判断AI什么时候在编造信息)具有直接价值。现有的很多幻觉检测方法依赖外部手段,而这项研究表明,在事实问答场景中,直接读取AI自身的内部激活状态可以提供额外的、不可替代的信息。

但这种信号是有边界的——在数学推理任务上,AI并没有这种内部感知,题目本身的公共结构特征就决定了一切。这意味着,如果你想监控一个AI在数学计算上会不会出错,仅靠观察它的内部状态是不够的,你需要更多地关注问题本身的性质。

这项研究本身的分析是相关性的,研究团队坦诚地指出,他们尚未通过干预实验来验证因果关系。一个颇具想象力的后续方向是所谓的"激活引导":如果研究者能找到正确性信号在残差流中的方向,然后人为地沿这个方向推动激活值,是否真的能让AI更频繁地答对?这种实验将直接检验这条内部信号的因果力量,而非仅仅观察它的存在。

研究团队还指出了他们工作的其他局限:主要实验的模型规模集中在70亿到90亿参数之间,更大规模的模型可能呈现不同的模式;研究范围局限于事实知识和数学推理这两类任务,编程、常识推理等混合领域还有待探索;探针方法本质上只能检测线性或有限非线性的信号,更复杂的内部表示方式可能还需要其他工具来挖掘。

归根结底,这篇论文讲的是一个关于"自知之明"的故事——不是人类的,而是AI的。事实证明,当AI在检索知识时,它的内部确实留下了只有自己才能感受到的痕迹;但当AI在做数学推理时,它的内心对自己会不会算错这件事,并没有任何特别的洞察,和旁观者一样"盲目"。这个有趣的不对称,或许能帮助我们更清醒地理解AI究竟能在哪些地方"信任自己",在哪些地方仍需要外部校验。

有兴趣深入了解这项研究的完整细节、数学推导和全部实验数据的读者,可以通过arXiv编号2604.12373找到完整论文。

Q&A

Q1:什么是大语言模型的"特权知识",为什么它对判断AI是否会答错很重要?

A:大语言模型的"特权知识"指的是藏在AI内部状态中、只有AI自身才能"感知到"的关于自己答题正确性的信号,外部观察者通过查看问题本身或其他AI的表现都无法获得这些信息。它的重要性在于:如果这种信号真实存在,就可以在AI给出错误答案之前从其内部状态中提取预警,这对防止AI在事实问答中"一本正经地胡说八道"(即幻觉问题)具有直接实用价值。

Q2:为什么以前的研究说AI没有特权知识,而这篇研究说有?

A:以前的研究在完整测试集上做评估,但忽略了一个关键问题:不同AI模型对同一批问题的答题正确率高度一致(约75%到80%的问题大家都答一样),这使得"外部AI的答题情况"本身就是一个强力代理信号,让外部探针看起来和自我探针一样好。这篇研究专门针对不同AI给出相反结果的"分歧题目"进行评估,消除了这个代理信号,才真正隔离出了AI内部私有信号的贡献。

Q3:大语言模型在数学题上为什么没有关于自身正确性的特权知识?

A:在数学推理任务中,一道题能不能做对,主要取决于题目本身的结构复杂性和运算步骤的难度,这些特征是"公开可见"的,任何AI看到这道题都能对难度做出大致相同的判断,不需要依赖某个特定AI的内部私有状态。换句话说,数学题的难度是一种客观的公共属性,而不是某个AI独有的主观感受,所以外部观察者和AI自身对"会不会答对"的判断能力是相当的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚还完三年车贷,47岁陕西卡友:命丧青藏线,为省钱没雇副驾!

刚还完三年车贷,47岁陕西卡友:命丧青藏线,为省钱没雇副驾!

川渝视觉
2026-04-25 19:44:38
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

金风说
2026-04-15 14:42:59
剖析项英牺牲真相:为何多次拒绝毛泽东北上命令?因自己两个私心

剖析项英牺牲真相:为何多次拒绝毛泽东北上命令?因自己两个私心

阿胡
2025-04-20 11:05:46
菲律宾局势突变,副总统仓皇出逃海外,解放军果断堵门亮剑

菲律宾局势突变,副总统仓皇出逃海外,解放军果断堵门亮剑

梦亦沐歌
2026-04-26 03:54:25
暴雨,大暴雨!明起,新一轮强降雨来袭

暴雨,大暴雨!明起,新一轮强降雨来袭

新浪财经
2026-04-25 17:01:34
美伊和谈再启?伊朗:我们是来出访的!伊朗内讧?最高领袖身负重伤,仍控全局

美伊和谈再启?伊朗:我们是来出访的!伊朗内讧?最高领袖身负重伤,仍控全局

红星新闻
2026-04-25 12:01:51
盐城城投 “超级内循环”:肥水不流外人田,民企还能分几杯羹?

盐城城投 “超级内循环”:肥水不流外人田,民企还能分几杯羹?

MC洋洋拍客
2026-04-24 16:52:05
普京罕见让步,中国了结30年心愿!日本彻底慌了,高市遣使求饶

普京罕见让步,中国了结30年心愿!日本彻底慌了,高市遣使求饶

玲儿爱唱歌
2026-04-26 04:35:57
丁俊晖:赵心童打球太像奥沙利文了,他未来将接管斯诺克这项运动

丁俊晖:赵心童打球太像奥沙利文了,他未来将接管斯诺克这项运动

杨华评论
2026-04-25 07:03:01
CBA季后赛八强预测!广东将2-1广州,辽宁、青岛、稠州有望晋级!

CBA季后赛八强预测!广东将2-1广州,辽宁、青岛、稠州有望晋级!

军武英雄
2026-04-25 19:30:20
为什么脑梗逐年增多?提醒:与肥肉无关,有一样东西要少碰

为什么脑梗逐年增多?提醒:与肥肉无关,有一样东西要少碰

芹姐说生活
2026-04-19 08:33:41
离谱!lululemon “甘露寺同款”!网友:中产穿上原地出家了~

离谱!lululemon “甘露寺同款”!网友:中产穿上原地出家了~

LOGO研究所
2026-04-25 21:47:32
为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

瑛派儿老黄
2025-12-02 21:11:13
商务部新闻发言人就欧盟第20轮对俄制裁列单中国企业答记者问

商务部新闻发言人就欧盟第20轮对俄制裁列单中国企业答记者问

界面新闻
2026-04-25 19:51:38
DeepSeek联手华为掀桌子后,黄仁勋给英伟达下达了死命令

DeepSeek联手华为掀桌子后,黄仁勋给英伟达下达了死命令

南宗历史
2026-04-25 10:12:48
中国技术曾取得突破?知名大V:中企将入场,光刻机快成白菜价

中国技术曾取得突破?知名大V:中企将入场,光刻机快成白菜价

国际阿尝
2026-04-24 20:48:22
连院子里的树都被贴了封条,山东临沂纳税状元变“黑老大”

连院子里的树都被贴了封条,山东临沂纳税状元变“黑老大”

有戏
2026-04-16 18:23:20
四川成都一小区火灾致5死2伤,深圳电动车早就不能进楼栋了

四川成都一小区火灾致5死2伤,深圳电动车早就不能进楼栋了

九方鱼论
2026-04-25 14:29:53
3000万欧年薪!皇马巨星要挟高层,不给就转会,姆巴佩笑了

3000万欧年薪!皇马巨星要挟高层,不给就转会,姆巴佩笑了

祥谈体育
2026-04-25 16:59:55
1981年,华国锋并未辞去所有职位,仍留着一个关键职务直到2002年

1981年,华国锋并未辞去所有职位,仍留着一个关键职务直到2002年

莫地方
2026-04-26 00:05:05
2026-04-26 05:32:49
户外阿毽
户外阿毽
硬核户外的使徒行者! 开车山路狂飙,古溶洞探秘,航拍大好河山
101文章数 3266关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

游戏
家居
旅游
亲子
公开课

金发美少女魔王和我是邻居!新游首曝美女角色太吸睛

家居要闻

自然肌理 温润美学

旅游要闻

美猴王VS水蜜桃,连云港、无锡文旅“双向奔赴”

亲子要闻

终于理解了什么是“鼓励式教育”,鼓励比责怪更有力量!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版