新加坡管理大学揭开ChatGPT们的"自知之明"真相|东京|实验

分享至

说到人工智能，我们总是好奇这些看似无所不知的大模型是否真的了解自己的知识边界。这就像问一个学霸："你知道自己不知道什么吗？"这个看似简单的问题，实际上关乎AI系统的可信度和安全性。

新加坡管理大学的张诚胜、阿里巴巴达摩院的陈厚鹏、新加坡科技设计大学的张文轩以及新加坡管理大学的邓洋组成的研究团队，在2025年10月发表了一项突破性研究，论文编号为arXiv:2510.09033v1。这项研究彻底颠覆了我们对大语言模型"自知之明"的理解，揭示了一个令人意外的真相：大模型并不真的知道自己不知道什么。

这项研究的重要性不言而喻。当我们日常使用ChatGPT、GPT-4这些AI助手时，它们偶尔会"一本正经地胡说八道"，生成看似合理但实际错误的信息，这种现象被称为"幻觉"。如果AI能够准确识别自己的知识盲区，就能在不确定时主动说"我不知道"，而不是编造一个听起来很有道理的错误答案。

研究团队通过精巧的"解剖"实验，深入分析了大模型内部的信息处理机制。他们发现了一个关键问题：现有的幻觉检测方法实际上检测的不是"真假"，而是模型是否依赖了存储的知识。这就好比一个医生用体温计来判断病人是否发烧，结果发现这个"体温计"测量的其实不是体温，而是病人是否穿了厚衣服。

更令人惊讶的是，研究团队发现幻觉并非铁板一块。他们将幻觉分为两大类：一类是"关联幻觉"，就像学生记混了知识点，把奥巴马的出生地说成了他曾经学习的地方芝加哥；另一类是"无关联幻觉"，完全没有根据地胡编乱造，比如说奥巴马出生在东京。这两种幻觉在模型内部的处理机制截然不同，这一发现对改进AI系统具有重大意义。

一、大模型的"知识回忆"秘密：就像人脑提取记忆

要理解大模型是否知道自己不知道什么，我们首先需要了解它们是如何"回忆"知识的。这个过程就像人脑从记忆库中提取信息一样，有着特定的神经通路和处理机制。

研究团队选择了两个主流的大语言模型进行深入分析：Meta公司的LLaMA-3-8B和Mistral公司的Mistral-7B-v0.3。这就像选择两个不同品牌的汽车来研究发动机工作原理一样，能够验证发现的普遍性。

为了构建实验数据集，研究团队从维基数据中精心筛选了关于人物的事实性问题，比如"巴拉克·奥巴马出生在哪个城市"这样的问题。他们设计了严格的标准来确保每个问题都有唯一正确答案，避免了那些可能存在多种正确答案的模糊问题。

通过对12,293个问题的分析，研究团队发现了一个有趣的分布：在LLaMA-3-8B模型中，正确回答占28.5%，关联幻觉占11.4%，而无关联幻觉占了大头，达到60.1%。这就像一个学生的考试成绩单：真正答对的不到三成，记混知识点的占一成多，完全不知道瞎猜的占了六成。

研究团队采用了一种叫做"因果干预分析"的方法来追踪信息在模型内部的流动路径。这种方法就像在复杂的管道系统中投入示踪剂，观察水流的走向一样。他们人为地阻断或修改模型内部某些部分的信息传递，然后观察输出结果的变化，从而确定哪些部分对最终答案最关键。

通过这种"探针"式的分析，研究团队发现了知识回忆的三个关键步骤：首先，模型在早期层级中处理主语信息（比如"巴拉克·奥巴马"）；接着，在中间层级通过注意力机制将主语信息传递到句子末尾的位置；最后，在后期层级中在句子末尾位置生成答案。这个过程就像接力赛跑一样，信息从一个环节传递到下一个环节，最终到达终点。

有趣的是，当研究团队比较正确答案、关联幻觉和无关联幻觉这三种情况时，发现了一个关键差异：正确答案和关联幻觉走的是相同的"信息高速公路"，而无关联幻觉则走了完全不同的"小道"。这就好比两个人都想去图书馆查资料，一个找到了正确答案，另一个找错了书但至少到了图书馆；而第三个人根本没去图书馆，只是在街上随便问了个路人。

二、揭秘两种幻觉的"身份证"：关联与无关联的大不同

就像医生需要区分不同类型的疾病才能对症下药一样，要解决AI幻觉问题，首先需要理解不同类型幻觉的"基因密码"。研究团队的一个重要贡献就是发现了关联幻觉和无关联幻觉在模型内部表现出的截然不同的"指纹"。

关联幻觉就像一个认真的学生答错了题。比如问"奥巴马出生在哪个城市"，模型回答"芝加哥"。这个答案虽然错误，但并非毫无根据——奥巴马确实在芝加哥生活过，只是那是他的工作地点而非出生地。这种错误源于模型在训练数据中频繁看到"奥巴马"和"芝加哥"同时出现，形成了强烈的关联记忆。

无关联幻觉则完全不同，就像一个学生面对完全不熟悉的题目时的随意猜测。比如说"奥巴马出生在东京"，这个答案与输入信息没有任何合理的关联，纯粹是模型的"胡编乱造"。

研究团队通过精密的内部状态分析发现，这两种幻觉在模型内部的处理过程存在根本性差异。当生成关联幻觉时，模型的内部"神经元"活动模式与生成正确答案时几乎一样，都会激活相同的知识存储区域，都会走相同的信息传递路径。用通俗的话说，就是模型认真地"思考"了，只是想起了相关但错误的信息。

而无关联幻觉的内部活动模式则完全不同。研究团队发现，当模型生成无关联幻觉时，主语信息（比如"奥巴马"）在模型内部的激活强度明显较弱，信息传递过程也不够充分。这就像一个学生拿到考题后，连题目都没看清楚就开始答题一样。

为了验证这个发现，研究团队设计了一个巧妙的实验。他们测量了模型在处理不同类型问题时，内部"神经元"激活强度的变化。结果发现，正确答案和关联幻觉对应的激活强度非常接近，而无关联幻觉的激活强度明显偏低。这就像两盏灯泡，一盏亮度正常但颜色有偏差，另一盏则明显发光不足。

更进一步，研究团队还发现了一个有趣的现象：无关联幻觉主要出现在模型不太"熟悉"的主语上。他们用维基百科页面的月访问量作为人物知名度的指标，发现知名度低的人物更容易产生无关联幻觉，而知名度高的人物即使产生错误，也多是关联幻觉。这就好比一个人对熟悉的朋友可能记错具体细节，但对完全陌生的人就只能随便猜了。

这个发现颠覆了之前的一些观点。过去有研究认为，知名度高的人物更容易产生幻觉，但这项研究发现，知名度高的人物确实更容易产生错误，但这些错误主要是关联幻觉，而非完全的胡编乱造。这种区分对于设计更好的幻觉检测系统具有重要意义。

三、现有检测方法的"误诊"问题：体温计测的不是体温

既然我们已经了解了两种幻觉的不同"基因"，那么现有的幻觉检测方法表现如何呢？研究团队的发现可能会让很多人感到意外：那些被广泛使用的检测方法实际上存在严重的"误诊"问题。

目前主流的幻觉检测方法主要分为两大类。第一类叫做"内部探针法"，就像给模型装上"读心器"，通过分析模型内部的"神经活动"来判断输出是否可信。具体来说，研究者会提取模型在处理问题时的内部状态信息，然后训练一个分类器来区分正确答案和幻觉。

第二类是"置信度评估法"，类似于让模型进行"自我评估"。这种方法会分析模型输出答案时的"犹豫程度"，比如输出概率的高低、多次询问答案的一致性等，理论上认为模型对错误答案的置信度应该较低。

研究团队设计了一系列对比实验来测试这些方法的实际效果。他们将数据分为三个测试场景：只包含关联幻觉的场景、只包含无关联幻觉的场景，以及两种幻觉混合的完整场景。结果令人大跌眼镜。

在无关联幻觉的检测上，这些方法表现相当不错。以最先进的"最后位置隐藏状态"检测法为例，在LLaMA-3模型上的检测准确率（AUROC分数）达到了0.93，在Mistral模型上也有0.92的高分。这就像用一个精准的仪器检测完全不相关的错误信息，效果相当好。

但是，当面对关联幻觉时，同样的方法就"抓瞎"了。检测准确率骤降到0.69（LLaMA-3）和0.63（Mistral），基本上和随机猜测差不多。这就好比一个医生用体温计能准确识别重感冒患者，但对于轻微发烧的患者就完全看不出来了。

更糟糕的是，当两种幻觉混合出现时，检测系统的整体表现会被严重拖累。原本能够很好检测无关联幻觉的方法，在面对混合场景时准确率从0.9左右下降到0.8左右。这就像一个原本很有效的筛查工具，一旦面对复杂情况就失去了可靠性。

研究团队进一步分析发现，这个问题的根源在于现有检测方法的"误解"。这些方法实际上检测的不是"真假"，而是模型是否使用了存储的知识。当模型生成关联幻觉时，它确实使用了存储的知识，只是用错了地方；而当模型生成无关联幻觉时，它基本上没有动用相关的知识存储，所以容易被识别出来。

这种"误诊"问题在实际应用中可能带来严重后果。用户可能会对那些听起来很有道理的错误信息（关联幻觉）放松警惕，因为检测系统认为这些信息是"可信的"；相反，对于那些明显不靠谱的信息（无关联幻觉），检测系统能够及时提醒，但这种提醒往往是多余的，因为人类用户自己就能识别这种明显的错误。

四、训练AI说"我不知道"的困境：一刀切的无奈

既然检测幻觉这么困难，那能不能直接训练AI在不确定时说"我不知道"呢？这种被称为"拒绝回答训练"的方法听起来很有道理，就像教孩子在不知道答案时诚实地说"我不会"，而不是胡乱猜测。

研究团队测试了这种训练方法的实际效果，结果再次验证了两种幻觉之间的根本差异。他们设计了两种训练方案：一种是专门用无关联幻觉的样本来训练模型学会拒绝回答，另一种是用关联幻觉的样本进行训练。

用无关联幻觉样本训练的效果相当不错。训练后的模型在面对新的无关联幻觉问题时，有82%的概率会选择拒绝回答，说"我不知道"。这就像一个学生经过训练后，面对完全不熟悉的题目时会诚实地说"我不会"，而不是瞎猜一个答案。

然而，这种训练方法存在明显的局限性。首先，它对关联幻觉几乎没有效果，模型面对关联幻觉问题时仍然只有28%的概率选择拒绝回答。这就好比学生学会了在面对完全陌生的题目时说"我不会"，但对于似是而非、容易搞混的题目仍然会错误地"想当然"。

更麻烦的是，这种训练还会产生"误杀"现象。训练后的模型在面对一些它本来能够正确回答的问题时，也会有29.5%的概率选择拒绝回答。这就像一个过分谨慎的学生，连自己本来会的题目也不敢答，生怕出错。

用关联幻觉样本进行训练的效果就更差了。训练后的模型对关联幻觉的拒绝率只有33%，对无关联幻觉的拒绝率也只有23.5%。这种训练方法既不能有效防止关联幻觉，也不能很好地识别无关联幻觉，基本上是事倍功半。

研究团队深入分析后发现，这种差异的根本原因在于两种幻觉在模型内部的表示方式截然不同。无关联幻觉由于缺乏主语信息的有效传递，在模型内部形成了相对统一的"混乱"模式，这种模式具有一定的一致性，因此容易被学习和识别。

相比之下，关联幻觉由于涉及具体的知识内容，每个错误都有其特定的"知识背景"，在模型内部呈现出高度多样化的表示模式。这就好比每个学生的知识混淆都有其特定的原因和表现，很难用统一的方法来处理。一个学生可能把历史年代记混了，另一个可能把地理位置搞错了，第三个可能把人物关系弄反了，每种错误的"根源"都不同。

这种发现揭示了一个深层次的问题：当前的AI训练方法难以让模型真正理解"什么时候该说不知道"。模型学会的不是真正的"谦逊"和"自知之明"，而是一些表面的模式识别规则。这就像教孩子只在看到特定类型题目时说"我不会"，而不是让他们真正理解自己的知识边界。

五、重新审视AI的"自知之明"：知识回忆vs真实判断

通过层层剖析，研究团队得出了一个颠覆性的结论：大语言模型并不真的知道自己不知道什么。它们的内部表示反映的是知识的存储和回忆过程，而非对信息真实性的判断。

这个发现可以用一个简单的类比来理解。假设你有一个非常博学的朋友，他有着惊人的记忆力，能够回忆起大量的信息。但是，他分不清哪些信息是正确的事实，哪些是道听途说的传言，哪些是他自己的推测。当你问他问题时，他会按照记忆的清晰程度和关联程度来回答，而不是根据信息的真实性。

研究团队通过对模型内部"神经网络"的详细分析发现，当模型生成正确答案和关联幻觉时，其内部的信息处理过程几乎完全一致。两种情况下，模型都会：激活相同的知识存储区域；通过相同的注意力机制传递信息；在输出层采用相似的生成策略。

这就解释了为什么现有的检测方法对关联幻觉束手无策。这些方法本质上是在观察模型的"思考过程"，而关联幻觉和正确答案的"思考过程"在表面上看起来几乎一模一样。就好比两个学生都在认真地翻阅课本、仔细地思考，只是一个找到了正确答案，另一个记起了相关但错误的信息。

相反，无关联幻觉的生成过程则明显不同。模型在生成这类幻觉时，主语信息的处理较弱，知识检索过程不够充分，更多地依赖于一般性的语言模式而非具体的事实记忆。这就像一个学生没有认真审题，就凭着对题目类型的模糊印象随便写了个答案。

研究团队还发现了一个有趣的现象：模型在生成无关联幻觉时，输出概率分布往往比较平均，表现为高熵值；而在生成正确答案或关联幻觉时，概率分布比较集中，表现为低熵值。这就好比一个人在回答熟悉问题时语气坚定，在回答不熟悉问题时语气犹豫不决。

这些发现对AI安全性具有重要意义。关联幻觉往往更加危险，因为它们听起来很有道理，容易获得用户的信任。一个AI助手说"奥巴马出生在芝加哥"比说"奥巴马出生在火星"更容易让人相信，但前者实际上是更需要警惕的错误类型，因为它更难被发现和纠正。

研究团队的工作揭示了一个根本性的局限：仅仅依靠模型内部状态来判断输出的真实性是不够的。要真正解决幻觉问题，可能需要结合外部知识验证、多模型协同、实时事实检查等更复杂的方法。这就像仅仅观察一个人的表情无法判断他说的是真话还是假话，需要更多的外部证据来验证。

说到底，这项研究告诉我们一个重要的道理：AI模型虽然在很多任务上表现出色，但它们的"智能"与人类的智能存在本质差异。它们更像是功能强大的"信息组合器"，而不是真正具有判断力的"思考者"。理解这一点，对于我们正确使用和改进AI系统至关重要。

当我们与AI对话时，应该保持适度的怀疑和验证习惯，特别是对那些听起来很有道理但涉及具体事实的信息。同时，这项研究也为未来的AI发展指明了方向：我们需要开发真正具有"自知之明"的AI系统，让它们不仅能够存储和回忆信息，更能够判断信息的可靠性。

这项研究的价值不仅在于揭示了当前AI系统的局限性，更在于为构建更安全、更可靠的AI系统提供了科学依据。正如研究团队在论文中所强调的，未来的幻觉检测评估应该区分处理关联幻觉和无关联幻觉，因为它们需要完全不同的解决方案。对于有兴趣深入了解这项研究技术细节的读者，可以通过arXiv:2510.09033v1查询完整论文。

Q&A

Q1：什么是关联幻觉和无关联幻觉？

A：关联幻觉是AI基于相关知识但答错的情况，比如把奥巴马出生地说成芝加哥（他确实在那工作过）。无关联幻觉是完全没有根据的胡编乱造，比如说奥巴马出生在东京。两者在AI内部的处理机制完全不同。

Q2：现在的AI幻觉检测方法为什么不准确？

A：现有检测方法实际检测的是AI是否使用了存储知识，而不是答案的真假。关联幻觉因为使用了相关知识，所以很难被检测出来，而无关联幻觉因为没用相关知识，反而容易被发现。这就像体温计测的不是体温而是穿衣厚度。

Q3：能不能训练AI在不确定时说"我不知道"？

A：目前很困难。训练AI拒绝回答对无关联幻觉有效果（82%拒绝率），但对关联幻觉效果很差（只有28%拒绝率）。而且还会让AI连本来会的问题也不敢回答。这是因为两种幻觉的内部机制根本不同，无法用统一方法处理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.