与AI讨论“真理”？|算法|预训练|知识库|置信度|威廉姆森|赤道几内亚

与AI讨论“真理”？

分享至

来源：中科院物理所

作者：Marianne Freiberger & ChatGPT-5

翻译：Aegon

审校：virens

原文链接：Talking about truth with ChatGPT

我通常会忽略搜索引擎结果页面顶部出现的 AI 回答。它们以前出过错，所以我最多也只是把它们当作一种模糊的参考。

不过，苹果机器学习研究部门的西尼德·威廉姆森（Sinead Williamson）最近在艾萨克·牛顿数学科学研究所（INI）的做了一场报告。他的报告引发了我对“大语言模型（LLMs）与真理之间关系”的兴趣，也促成了一次与 ChatGPT 的有趣对话。

你确定吗？

我从威廉姆森的报告中学到的第一件事是：你可以要求一个大语言模型对自己的回答给出一个“置信度评估”。我在ChatGPT上试了一下，让它告诉我法国的首都是哪里，并说明它对这个答案有多确定。“巴黎，”它回答说，“我对此完全确定。”嗯，这个结果确实理所当然。

但当我把同样的问题换成赤道几内亚时，结果就更有意思了：ChatGPT 只对“马拉博”（Malabo，赤道几内亚的首都）这个答案有 99% 的把握。它解释说，这是因为赤道几内亚正筹划将首都从马拉博迁往“拉巴斯城”(Ciudad de la Paz)，因此存在一种可能：迁都已经完成，但ChatGPT 还没有注意到。

但如果事情的利害关系更大呢？如果我是医生，希望从大语言模型那里获得除了本人之外的第二份诊断建议，我会希望它：

a）是正确的；b）或者至少能够正确评估自己答案的可信程度。

如果是 99% 的置信度，我会感到安心；但如果只有 65%，我就会去请教人类专家。

要理解上述 a）和 b）这两个问题，有必要先看看大语言模型究竟是如何运作的。顾名思义，大语言模型处理的是“语言”：它们从海量文本中学习统计模式。当一个大语言模型告诉你“赤道几内亚的首都是马拉博”时，这是因为它学到，在统计意义上，“马拉博”极有可能出现在“赤道几内亚的首都”这句话之后。

问题在于，大语言模型训练所用的文本是由人类写成的，而人类会犯错。如果某个错误的说法在训练数据中频繁出现，模型就可能将这个错误延续下去。我让 ChatGPT 举个例子，它给了我这样一个问题：“澳大利亚的首都是哪里？” 一个常见的误解是认为首都是悉尼。如果这种错误在训练数据中反复出现，模型就可能给出错误答案，或者即便给出正确答案（堪培拉），也会表现出比实际合理程度更高的不确定性。（这只是一个简化的例子。任何“有自尊”的大语言模型都知道各国首都，后文会再提。）

让人类来把关

因此，仅仅模仿文本的统计规律（也就是生成“流畅”的语言）并不足够。这种训练方式教会模型去说那些“听起来像是真的”，而不是“确实是对的”的话。这种对流畅性的学习发生在所谓的“预训练”阶段。我问 ChatGPT：在预训练之后，还使用了哪些方法来提高模型的准确性。为了确认，我反复问了同一个问题，结果却令人困惑——我得到了多种不同的回答。这恰恰说明：大语言模型本质上是概率性的。

不过，有两种方法在我得到的每一个回答中都出现了。我将这一点视为它们重要性的体现，并对其进行了进一步了解。第一种方法称为监督微调（supervised fine-tuning，简称 SFT）。在这一过程中，人类首先为大量可能的输入提示配对“理想输出”。我让 ChatGPT 举一个这样的配对示例，它给出了如下内容：

输入（提示）：“用简单的语言解释引力是如何起作用的。” 输出（理想答案）：“引力是一种使物体相互吸引的力。”

在预训练阶段（模型在这一阶段学习如何生成流畅的语言）之后，这些“理想输入–输出”配对会被用于对模型进行进一步训练。粗略地说，模型会生成自己的输出，随后由算法衡量这些输出与理想答案之间的差异，模型再通过调整内部参数来最小化这种差异（更准确地说，是最小化一个损失函数）。通过大量这样的训练样本，模型内部的概率分布会被逐步调整，使得那些被理想输入–输出配对标记为“正确”的回答，在统计意义上变得更有可能被生成。

在 SFT 之后，ChatGPT 还向我介绍了第二种方法，称为基于人类反馈的强化学习（reinforcement learning with human feedback，简称 RLHF）。在这一过程中，人类会与模型互动，并对模型生成的成千上万、甚至上百万条输出进行评分。利用这些评分数据，会训练出一个奖励模型，用于预测人类偏好：在给定一个提示和一个回答的情况下，它会输出一个分数，反映人类偏好该回答的可能性。随后，这个奖励模型会通过所谓的“强化学习”机制，用于对原始模型进行微调：原始模型生成输出，奖励模型对其打分，原始模型再更新自身的内部参数，以最大化获得的奖励。

经过大量这样的训练，大语言模型逐渐学会生成那些人类会给予高评分的输出。这有助于模型与人类价值观保持一致。而既然“真实性”很可能正是这些价值观之一，那么这种方法也就有助于模型在事实性问题上给出更准确的答案。

看到在人类输入不仅在这两种方法中至关重要，而且在 ChatGPT 提到的其他一些（尽管并非全部）提升准确性的技术中同样如此，我既感到宽慰，又不免有些失望。（其中有一种我特别喜欢的方法，称为红队测试。在这种方法中，人类充当“对手”，刻意设法让模型出错，从而发现并修复其弱点。）

在了解了这些方法之后，我接着询问 ChatGPT 自身的准确性。经过一番来回讨论，它给出了如下回答：

从chatGPT获取的截图

你有多确定？

这就引出了前文中的第 b）点：我们能否信任 ChatGPT 对自身准确性的评估？大语言模型在判断自身不确定性方面，到底表现如何？这个问题与“模型本身有多准确”并不相同。一种可能是：模型经常出错，但却能够准确地表达自己出错的概率。另一种可能则是：模型大多数时候是对的，但却错误地评估了自己正确的概率。

如果一个模型善于判断自身的置信度，那么就称它具有良好的校准性。粗略来说，这意味着：如果你向模型提出大量问题，而模型对这些回答都表示自己有 x% 的把握，那么最终大约应有 x% 的回答确实是正确的。

我问 ChatGPT 自己是否具有良好的校准性，它的回答是：“大体上是的，但并不完美。” 随后，它进一步拆解了这个回答，与前面对自身准确性的描述相呼应：

从chatGPT获取的截图

这倒也说得通——无论是人类还是人工智能，在预测未来时，我都不会指望它们具有很高的确定性。

但问题在于，大语言模型究竟是如何给出这样的置信度估计的？比如，它在判断赤道几内亚首都是马拉博时所给出的 99%。起初我以为，这只是模型内部概率的直接体现：也就是说，在预训练过程中，当模型见到“赤道几内亚的首都是”这句话时，有 99% 的情况下接下来出现的都是“马拉博”，或是类似这样的机制。

但 ChatGPT 告诉我，这种理解是错误的。它表示，这个 99% 是一种定性的估计，基于它所称的“推理”（reasoning）过程得出：

从chatGPT获取的截图

然而，即便是这种“推理”过程，其根本仍然建立在训练数据中所蕴含的统计模式之上。我就这一点向 ChatGPT 进一步追问，它也确认了这一结论。

从chatGPT获取的截图

鉴于 ChatGPT 的一切行为都建立在统计模式之上，它居然具有如此良好的校准性，着实让我感到惊讶。Williamson 在 INI 的报告中也证实，总体而言，大语言模型具有良好的校准性——它们在评估自身输出的置信度方面表现得相当不错。Williamson 还表示，她正与同事们一起研究这一现象背后的原因，相关研究成果将于不久后发表。

但如果你所关心的信息更加复杂，又会怎样呢？总体而言，大语言模型是否能够用语言准确概括其内部所包含的完整概率分布？Williamson 及其同事在一篇最新论文中研究了这一问题——而他们给出的答案是一个断然的“不”。

他们写道：“现代的大语言模型在整体上都无法揭示自身究竟在哪些方面存在不确定性——无论是通过推理、思维链，还是通过显式微调，都做不到。”他们还进一步指出：“模型的输出或许表面上采用了总结式的格式，但其中提到的只是随便某种可能性，而非大语言模型真正‘相信’的那些可能性。”

大语言模型无法总结自身真正“相信”的内容，这一点令人颇感震惊。不过，Williamson 及其同事也发现，存在一些相对简单的方法，可以帮助大语言模型在这一方面取得改进，因此未来的研究方向也相当清晰。他们写道：“我们预计，从自我反思(SelfReflect)基准指标出发，相关研究将取得进一步进展，从而解锁更加诚实、也更值得信赖的大语言模型的交互过程。”如果你希望了解更多细节，可以参阅他们的论文。

至此，我决定结束这次关于真理、不确定性以及大语言模型的探究。我曾询问 ChatGPT 这篇文章是否准确，并根据它的反馈做了一些修改；但与此同时，我也同样按照自己一贯的标准，采用传统的研究方法进行了核查。至少在目前，我仍然没有准备好完全信任 ChatGPT。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.