斯坦福大学团队推出「许可证神谕」：让AI学会说「我不知道」|西蒙|证据

分享至

当你向ChatGPT询问某位哲学家的出生日期时，它总是信心满满地给出答案，哪怕这个答案完全错误。这种现象被研究者称为「幻觉」，就像AI患了妄想症，总是编造一些听起来很有道理但实际上完全错误的信息。来自加州圣迭戈RA软件公司的理查德·阿克曼和保加利亚索菲亚大学的西蒙·埃马努伊洛夫在2025年发表的这项研究，提出了一个革命性的解决方案——「许可证神谕」系统。

这项研究发表在2025年的学术期刊上，研究者通过设计一种全新的架构，让AI在回答问题前必须先检验自己的答案是否正确，就像给AI装上了一个严格的「事实核查员」。研究团队在实验中取得了惊人的成果：传统方法只能达到56.7%的准确判断率，而他们的系统达到了完美的100%准确率，完全消除了虚假答案的产生。

研究者首先深入分析了AI产生幻觉的根本原因。在他们之前发表的研究《大型语言模型是如何被设计来产生幻觉的》中，研究团队指出，这个问题并非来自训练数据不足或模型调优不当，而是源于变换器架构本身的局限性。变换器模型就像一个只会模仿的学生，它能够生成语法正确、听起来合理的句子，但缺乏验证这些句子是否符合事实的能力。研究者将这种现象比作「平面语义空间」，在这个空间中，词汇之间的关系仅基于统计模式，而非真实世界的事实联系。

面对这个根本性问题，研究团队提出了许可证神谕的概念。这个系统就像一个严格的图书管理员，在AI生成任何事实性陈述之前，都要求它提供「证据许可证」。这个许可证来自一个结构化的知识图谱，其中包含了经过验证的事实信息。当AI想要声明某条河流长度为多少公里时，系统会立即检查知识图谱中是否存在这个事实，同时验证这个陈述是否符合逻辑约束规则。

知识图谱的构建过程就像建造一个巨大的事实数据库。研究团队以美国河流为例，收集了9538条河流的详细信息，包括长度、流量、源头和入海口位置等21个属性，总共形成了118047个事实三元组。这些信息不仅来自维基百科等权威源，还经过了严格的逻辑验证。比如，系统会检查河流的源头海拔是否高于入海口海拔，因为河流必须从高处流向低处，这是基本的物理定律。

SHACL约束规则的设计体现了研究团队的深入思考。这些规则就像给事实信息制定的「质量标准」，包含七个主要约束条件。首先是类型约束，确保只有河流才能成为其他河流的支流，避免出现「加州是科罗拉多河的支流」这样的荒谬陈述。其次是数值合理性约束，要求所有长度、流量等数值必须为正数，因为负长度在物理世界中毫无意义。第三是海拔约束，确保河流源头海拔高于入海口，符合重力流动的基本原理。第四是地理一致性约束，验证流经美国各州的河流确实位于美国境内。

系统的运行机制可以比作一个多重检验的流水线。当用户提出问题时，系统首先从知识图谱中检索相关信息，然后让大语言模型基于这些信息生成回答。接下来是关键的验证步骤：系统使用GLiNER模型提取回答中的事实性声明，将其转换为结构化的三元组形式。每个三元组都要经过双重检验——首先确认知识图谱中确实存在这个事实，然后验证它不违反任何SHACL约束规则。只有通过所有检验的声明才能获得「许可证」并被输出给用户。如果任何声明无法通过验证，系统会诚实地回答「我不知道」。

为了验证系统的有效性，研究团队设计了一系列对比实验。他们测试了五种不同的方法：基础大语言模型、针对事实回忆优化的微调模型、针对拒绝回答训练的微调模型、检索增强生成系统，以及整合了许可证神谕的图谱检索增强生成系统。实验结果显示了传统方法的局限性。

基础模型的表现令人担忧。即使是最先进的Claude Sonnet 4.5，在面对领域特定的事实问题时准确率也只有42%，勉强超过随机猜测的20%。Google Gemini 2.5 Flash Lite达到了50.1%的准确率，而紧凑型的Google Gemma 3-4B-Instruct模型只有16.7%的准确率。这些结果证实了研究者的观点：即使是最大最先进的模型，也无法仅凭参数记忆来保证事实准确性。

更让人意外的是微调实验的结果。研究团队发现，针对事实回忆进行微调不仅没有提高准确率，反而使性能从16.7%下降到8.5%。这个现象被称为「微调悖论」——当模型学习新的事实知识时，反而增加了产生幻觉的倾向。这是因为模型学会了生成自信的回答，即使在不确定的情况下也会编造答案，而不是承认无知。

针对拒绝回答行为的训练同样令人失望。虽然这种方法教会了模型在不确定时说「我不知道」，但其拒绝回答的准确性只有56.7%，barely比随机选择好一点。这意味着模型经常在应该回答时选择拒绝，或在应该拒绝时强行回答，完全无法可靠地判断自己的知识边界。

检索增强生成系统展现了显著的改进，准确率从50.1%跃升至89.5%，提高了39.4个百分点。这种方法通过在回答问题前检索相关文档来提供额外信息，大大改善了事实准确性。然而，这种方法仍然存在关键缺陷——它缺乏有原则的拒绝回答机制。即使检索到的信息不足或相互矛盾，系统仍会尝试生成答案，从而可能产生新的错误。

许可证神谕系统的表现堪称完美。在图谱检索增强生成的基础上，该系统达到了89.1%的准确率，与传统检索方法相当，但关键区别在于其提供了确定性的验证保证。系统实现了完美的拒绝回答精确度（100%），这意味着每次选择说「我不知道」时都是正确的决定。更重要的是，系统的虚假答案率为零——在应该拒绝回答的问题上，它从未提供过错误答案。

研究团队还测试了系统的跨领域泛化能力。除了美国河流领域，他们还在哲学家影响关系领域进行了验证。这是一个完全不同的知识域——从地理实体转向思想史人物，从物理属性转向抽象的影响关系。实验结果显示，许可证神谕在哲学家领域达到了89.0%的准确率，与河流领域的89.1%几乎相同，误差不到0.1%。这种跨领域的稳定性能证明了系统的通用性和可扩展性。

约束违反拒绝率的测试进一步验证了系统的逻辑一致性。当系统遇到违反SHACL约束的声明时，它能以50%的成功率识别并拒绝这些逻辑矛盾。虽然这个数字看似不高，但考虑到约束检测的复杂性，这已经展现了系统在维护逻辑一致性方面的能力。许可证答案准确性达到100%，意味着所有获得许可证的答案都是正确的，没有任何虚假信息通过验证关卡。

系统架构的设计体现了研究团队对AI可靠性问题的深刻理解。传统的大语言模型像一个博学但不负责任的学者，总是愿意就任何话题发表意见，即使对该话题一无所知。许可证神谕则像一个谨慎的专家，只在有确凿证据支持时才发表声明。这种设计哲学的转变——从「尽力回答」到「负责任地回答」——代表了AI系统设计的重要进步。

实现技术栈的选择也很有启发性。研究团队使用RDFLib处理知识图谱操作，pySHACL进行约束验证，GLiNER执行命名实体识别以提取事实声明，OpenRouter API提供大语言模型推理服务。这个技术组合展现了如何将符号AI（知识图谱和逻辑推理）与神经AI（大语言模型）有效结合，创造出一个兼具两者优势的混合系统。

研究的实际意义远超学术范畴。在医疗、法律、科学研究等高风险应用中，AI系统的事实准确性关乎重大决策的正确性。一个能够明确区分「我知道」和「我不知道」的AI系统，比一个总是给出看似合理但可能错误答案的系统更有价值。许可证神谕提供了一个框架，让AI系统能够在知识边界内提供可靠服务，而在超出知识范围时诚实承认局限性。

当然，这个系统也有其局限性。首先，它只能处理可以在结构化知识图谱中表示的事实性知识，对于需要创意思维、主观判断或开放性讨论的任务并不适用。其次，系统的性能严重依赖于知识图谱的完整性和准确性。如果图谱中缺少某些重要信息，系统只能选择拒绝回答，这可能限制其实用性。第三，当前实现主要验证单个事实声明，尚未完全解决需要多步推理的复杂查询问题。

微妙语义区分的处理也是一个挑战。比如区分「河流入海口」和「河流流入」这样的细微差别时，知识图谱的谓词精确性就变得至关重要。如果图谱使用了不够精确的关系描述，神谕可能无法正确验证某些声明。处理歧义性和时间相关查询也是当前架构需要改进的方向。

系统评估方法的创新性值得特别关注。研究团队不仅测量了传统的准确率指标，还引入了拒绝回答精确度、虚假答案率、约束违反拒绝率等专门衡量认知诚实性的指标。这些指标更好地反映了AI系统的认知边界管理能力，为评估AI可靠性提供了新的标准。

从架构设计的角度看，许可证神谕代表了从统计学习向结构化验证的范式转变。传统方法试图通过更多数据和更大模型来解决幻觉问题，这项研究证明了架构创新的重要性。通过在生成过程中嵌入确定性验证步骤，系统能够提供统计方法无法匹配的可靠性保证。

研究成果对AI安全和可解释性也有重要意义。许可证神谱不仅能阻止错误信息的传播，还提供完整的溯源记录，显示每个答案基于哪些具体事实和约束规则。这种透明性对于需要审核AI决策过程的应用场景极其宝贵。

展望未来，这项研究为构建更可靠的AI系统指明了方向。研究团队提到了几个潜在的改进方向：扩展多步推理能力、处理时间动态知识、改进知识图谱的覆盖范围、优化覆盖率与精确率之间的权衡等。结合统计生成与架构验证的混合系统可能代表了下一代AI系统的发展趋势。

说到底，这项研究解决了一个困扰AI领域多年的根本问题。通过让AI学会诚实地承认无知，研究者为构建真正可信的AI系统奠定了基础。在AI技术日益渗透到关键决策领域的今天，这种认知诚实性可能比单纯的智能性更为重要。许可证神谕不仅是一个技术创新，更是AI伦理和责任的具体体现——让机器像人类专家一样，在不确定时选择谨慎，在确定时提供可靠的答案。

对于普通用户而言，这意味着未来的AI助手将更加可靠和诚实。当你询问某个具体事实时，AI不再会编造听起来合理的答案，而是要么给出有证据支持的正确答案，要么诚实地说「我不知道，但你可以查阅相关资料」。这种改变虽然可能让AI看起来不那么「无所不知」，但却让它变得真正有用和可信。毕竟，一个诚实承认局限性的助手，远比一个总是胡说八道但听起来很自信的助手更值得信赖。

有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2509.16297查询完整论文，该研究为AI可靠性领域开辟了新的研究方向，预示着更加负责任的AI时代即将到来。

Q&A

Q1：什么是许可证神谕系统？

A：许可证神谕是一种新的AI架构，就像给AI装上了严格的事实核查员。当AI想要回答问题时，必须先从知识图谱中找到证据支持，并通过逻辑约束验证，只有获得「许可证」的答案才能输出给用户，否则系统会诚实地说「我不知道」。

Q2：为什么AI会产生幻觉现象？

A：AI幻觉源于变换器架构的根本局限性。AI就像只会模仿的学生，能生成语法正确的句子，但缺乏验证事实真实性的能力。它基于统计模式生成回答，而非真实世界的事实联系，因此经常编造听起来合理但完全错误的信息。

Q3：许可证神谕系统的准确率如何？

A：实验显示许可证神谕达到了89.1%的准确率，更重要的是实现了100%的拒绝回答精确度和零虚假答案率。这意味着系统每次选择说「我不知道」时都是正确的，在应该拒绝回答的问题上从未提供过错误答案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.