哥本哈根大学新发现：AI事实核查中，证据比解释更重要|实验|方法论|局限性

分享至

这项由丹麦哥本哈根大学计算机科学系与瑞典林雪平大学合作完成的研究发表于2025年，论文编号为arXiv:2601.11387v1，为我们揭示了在AI辅助事实核查过程中，人们究竟如何使用和评估AI系统提供的信息。

在当今信息爆炸的时代，人们越来越依赖AI来帮助判断信息的真假。就像有了GPS导航，我们出门不再需要问路一样，大型语言模型（比如ChatGPT）已经成为许多人获取信息和进行决策的重要工具。然而，这些AI系统就像一个看起来很聪明但有时会犯错的助手，它们可能给出错误答案，也可能因为表达得太流畅而让人过度相信。

想象一下，如果你请一位朋友帮你判断网上某个说法是否属实，你会希望朋友不仅告诉你结论，还会解释推理过程。同样，当AI系统进行事实核查时，研究人员也在探索如何让这些系统提供更有说服力的解释，以及如何防止人们过度依赖AI的判断。

哥本哈根大学的研究团队注意到一个有趣现象：虽然很多研究都在关注如何让AI给出更好的解释，但很少有人深入研究"证据"在这个过程中的作用。这就好比大家都在讨论如何让老师讲得更清楚，却忽略了课本和参考资料的重要性。

研究团队决定系统性地探讨这个问题。他们设计了一个精巧的实验，让208名参与者扮演事实核查员的角色。每个参与者都会看到一些需要验证的说法，比如"86%的美国人和82%的枪支拥有者支持要求所有枪支购买者进行背景调查"这样的具体陈述。

在这个实验中，参与者不仅能看到AI系统的判断结果和置信度，还能选择查看AI系统用来做判断的原始证据文档。就像法官审案时不仅要听律师的论述，还要查看相关证据一样，参与者可以深入了解AI判断的依据。

研究团队特别关注三种不同类型的解释方式。第一种是"确定性解释"，AI系统会解释为什么它对某个判断很有信心，就像一个学生向老师解释为什么确信自己的答案是对的。第二种是"不确定性解释"，AI会说明为什么它对判断感到犹豫，比如"证据相互矛盾，所以我不太确定"。第三种是对照组，只提供数字形式的置信度分数，不给出文字解释。

令研究团队惊讶的是，实验结果显示了一个出乎意料的模式。无论AI系统提供什么样的解释，无论AI的判断是对是错，无论AI表现得多么自信，参与者们都表现出强烈的"求证心理"——他们会主动去查看原始证据。这就像购物时，无论销售员说得多么天花乱坠，消费者还是想亲自检查商品质量一样。

数据显示，64%的参与者会查看每个案例的所有证据文档，只有3个人（在208人中）完全不查看任何证据。这个比例远远超过了以往研究中人们点击外部链接的比例（通常只有10-28%）。研究团队认为，这种差异可能是因为他们将证据直接嵌入到实验界面中，而不是提供需要跳转的外部链接，大大降低了查看证据的门槛。

更有趣的是，当参与者能够获得自然语言解释时，他们查看证据的频率略有下降，但仍然保持在很高水平。这表明解释确实有一定作用，但无法完全替代人们对原始证据的需求。就像看病时，即使医生解释得很详细，患者还是想看看检查报告一样。

研究还发现了信任度与信息使用偏好之间的有趣关系。那些对AI系统更信任的人倾向于更多依赖AI的解释，而对AI系统信任度较低的人则更愿意自己查看原始证据。这种现象很容易理解：信任一个人时，我们更愿意听取他的意见；不太信任时，我们更倾向于自己调查。

在质性分析中，研究团队发现参与者展现出了相当敏锐的判断力。尽管实验中故意隐藏了证据来源的身份信息，参与者们还是会尝试通过各种线索来判断信息的可靠性。他们特别关注统计数据的存在，认为有具体数字的证据更可信。有参与者表示："如果证据中有来自可靠来源的真实数字和数据，我通常会支持AI的判断。"

这种对数字的偏好既有合理性，也暗藏风险。一方面，统计数据确实可能更客观；另一方面，数字本身并不保证信息的准确性，有经验的信息操纵者完全可以用虚假或误导性的数据来增强说服力。

研究团队还观察到，当AI的解释与证据不符时，参与者能够敏锐地察觉到这种矛盾，并将其作为质疑AI判断的依据。一位参与者说："有时通过阅读解释，我能发现AI逻辑中的错误。"这表明提供解释虽然可能增加被发现错误的风险，但也为用户提供了检验AI推理过程的机会。

从实验设计的角度来看，研究团队经历了一个有趣的调整过程。最初，他们要求参与者直接判断说法的真假，但在试点测试中发现，由于证据就在眼前，参与者往往忽略AI系统而直接基于证据做判断。为了让参与者更多关注AI系统本身，研究团队改变了任务设定，让参与者决定是"使用AI的判断"还是"需要更多研究"。

这个调整反映了一个重要现象：当原始信息readily available时，人们的天然倾向是直接查看原始资料，而不是依赖中间人的转述。这就像读新闻时，如果能直接看到完整的采访录音，人们更愿意听录音而不是只看记者的总结。

研究结果对AI系统的设计具有重要启示。目前，许多商业AI搜索系统（如Google的Gemini）已经开始在AI生成的回答旁边提供原始资料链接。这项研究表明，这种设计方向是正确的，而且应该进一步降低用户访问原始证据的门槛。

然而，研究也揭示了一些需要谨慎对待的问题。比如，如果AI系统可以有选择性地展示证据，或者通过巧妙的措辞来误导用户对证据的理解，那么即使提供了原始资料，用户也可能被误导。就像一个不诚实的律师可能会引用真实的法条，但只选择对自己有利的部分一样。

研究团队特别强调，他们使用的"不确定性解释"比传统的"确定性解释"更能帮助用户做出准确判断。不确定性解释会明确指出证据中的矛盾或不足，比如"证据A支持这个说法，但证据B与之矛盾，这降低了我的确信度"。这种诚实承认局限性的方式，反而能帮助用户更好地校准对AI判断的信任度。

这个发现具有深远意义。在现实世界中，很多AI系统倾向于表现得过分自信，即使在面对模棱两可的情况时也会给出确定性的答案。如果AI系统能够更诚实地表达不确定性，并解释这种不确定性的来源，用户就能做出更明智的决策。

研究还发现了一个有趣的心理现象：参与者对AI解释的评价会受到AI判断准确性的影响。当AI给出正确答案时，同样的解释会被评价得更高；当AI犯错时，相同类型的解释就会被认为不够有用。这提醒我们，人们对AI能力的评估往往带有"结果导向"的色彩，这可能会影响他们对AI系统的长期信任。

从更广阔的视角来看，这项研究反映了人类在信息时代面临的核心挑战：如何在享受AI便利的同时，保持批判性思维能力。研究结果令人鼓舞地表明，至少在实验环境中，人们表现出了强烈的求证意愿和相当不错的辨别能力。

然而，实验环境与现实世界存在重要差异。在日常生活中，人们往往面临时间压力，缺乏动机去深入验证每一条信息。而且，真实世界中的证据可能更复杂、更难理解，不像实验中使用的相对简洁的文档。

研究团队承认了这些局限性，并建议未来的研究应该在更自然的环境中测试这些发现。他们还指出，需要更多研究来了解如何最有效地呈现证据，以及如何帮助用户发展必要的技能来评估复杂信息。

从技术发展的角度来看，这项研究为改进AI系统指出了明确方向。首先，AI系统应该让用户更容易获取原始证据，而不是仅仅提供处理后的结论。其次，AI应该学会更诚实地表达不确定性，特别是当证据存在矛盾或不足时。最后，AI的解释应该明确指出它是如何使用证据的，让用户能够验证这种使用是否合理。

这项研究也对教育和媒体素养提出了重要启示。如果我们希望公众能够有效利用AI工具而不被误导，就需要教会人们如何评估信息来源、如何识别证据与结论之间的逻辑关系、如何处理相互矛盾的信息。这些技能在AI时代变得比以往任何时候都更加重要。

值得注意的是，研究中的参与者表现出的主动求证行为，可能部分归因于实验任务的设计。当人们被明确要求评估信息准确性时，他们自然会更加谨慎。在日常的信息消费中，人们可能没有同样强烈的动机去验证每一条信息。因此，如何在实际应用中保持这种谨慎态度，仍然是一个需要进一步探索的问题。

研究团队使用的方法也很值得关注。他们采用了混合研究方法，结合定量数据分析和定性访谈，这使得研究结果更加全面和深入。定量数据告诉我们"发生了什么"，而定性分析帮助我们理解"为什么会这样"。这种方法论对于理解人机交互中的复杂现象特别有价值。

说到底，这项研究最重要的贡献可能在于它提醒我们：在AI时代，"透明度"不仅仅意味着让AI解释它的决策过程，更重要的是让用户能够接触到AI决策所依据的原始信息。就像民主社会中的政府应该让公民能够获取政策制定所依据的信息一样，AI系统也应该让用户能够查看和验证它们的信息来源。

这种透明度要求可能会给AI系统的设计带来新的挑战。如何在保持用户体验流畅的同时提供充分的证据访问？如何帮助用户高效地处理大量复杂信息？如何确保证据本身的质量和可靠性？这些都是需要技术界、学术界和政策制定者共同思考的问题。

归根结底，这项研究为我们描绘了一个相对乐观的图景：人们并没有盲目地相信AI，而是保持了健康的怀疑态度和求证意愿。关键是要为这种积极态度提供合适的工具和环境支持。如果我们能够设计出既便利又透明的AI系统，既能提供高质量的解释又能让用户轻松获取原始证据，那么AI就真的能成为增强人类判断能力的有力工具，而不是替代人类思考的黑箱系统。

这项研究的意义远远超出了技术层面。它实际上在探讨一个根本问题：在智能技术快速发展的时代，我们如何既能享受技术带来的便利，又能保持独立思考和批判判断的能力？答案似乎不在于抵制或盲从技术，而在于设计出能够支持和增强人类理性能力的技术系统。

Q&A

Q1：为什么人们在使用AI事实核查时更依赖证据而不是解释？

A：哥本哈根大学的研究发现，64%的参与者会查看所有原始证据，这表明人们天然倾向于"眼见为实"。就像购物时无论销售员说得多好，消费者还是想亲自检查商品一样，面对AI的判断，人们更愿意查看原始资料来验证，而不是仅仅相信AI的解释。

Q2：AI的不确定性解释比确定性解释更好吗？

A：研究表明是的。不确定性解释会诚实地指出证据中的矛盾或不足，比如"证据A支持但证据B矛盾，降低了确信度"。这种承认局限性的方式反而帮助用户更准确地判断，避免过度依赖AI，就像诚实的医生会告诉你"需要进一步检查"比给出草率结论更负责任。

Q3：这项研究对日常使用AI工具有什么启发？

A：最重要的启发是保持"求证心理"。研究显示人们具备良好的批判能力，关键是要降低获取原始信息的门槛。日常使用AI时，我们应该主动寻找信息来源，特别关注AI表达不确定性的地方，不要仅仅因为AI表达流畅就完全相信其判断。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.