网易首页 > 网易号 > 正文 申请入驻

与AI讨论“真理”?

0
分享至


来源:中科院物理所

作者:Marianne Freiberger & ChatGPT-5

翻译:Aegon

审校:virens

原文链接:Talking about truth with ChatGPT

我通常会忽略搜索引擎结果页面顶部出现的 AI 回答。它们以前出过错,所以我最多也只是把它们当作一种模糊的参考。

不过,苹果机器学习研究部门的西尼德·威廉姆森(Sinead Williamson)最近在艾萨克·牛顿数学科学研究所(INI)的做了一场报告。他的报告引发了我对“大语言模型(LLMs)与真理之间关系”的兴趣,也促成了一次与 ChatGPT 的有趣对话。

你确定吗?

我从威廉姆森的报告中学到的第一件事是:你可以要求一个大语言模型对自己的回答给出一个“置信度评估”我在ChatGPT上试了一下,让它告诉我法国的首都是哪里,并说明它对这个答案有多确定。“巴黎,”它回答说,“我对此完全确定。”嗯,这个结果确实理所当然。

但当我把同样的问题换成赤道几内亚时,结果就更有意思了:ChatGPT 只对“马拉博”(Malabo,赤道几内亚的首都)这个答案有 99% 的把握。它解释说,这是因为赤道几内亚正筹划将首都从马拉博迁往“拉巴斯城”(Ciudad de la Paz),因此存在一种可能:迁都已经完成,但ChatGPT 还没有注意到。

但如果事情的利害关系更大呢?如果我是医生,希望从大语言模型那里获得除了本人之外的第二份诊断建议,我会希望它:

a)是正确的;b)或者至少能够正确评估自己答案的可信程度。

如果是 99% 的置信度,我会感到安心;但如果只有 65%,我就会去请教人类专家。

要理解上述 a)和 b)这两个问题,有必要先看看大语言模型究竟是如何运作的。顾名思义,大语言模型处理的是“语言”:它们从海量文本中学习统计模式。当一个大语言模型告诉你“赤道几内亚的首都是马拉博”时,这是因为它学到,在统计意义上,“马拉博”极有可能出现在“赤道几内亚的首都”这句话之后。

问题在于,大语言模型训练所用的文本是由人类写成的,而人类会犯错如果某个错误的说法在训练数据中频繁出现,模型就可能将这个错误延续下去。我让 ChatGPT 举个例子,它给了我这样一个问题:“澳大利亚的首都是哪里?” 一个常见的误解是认为首都是悉尼。如果这种错误在训练数据中反复出现,模型就可能给出错误答案,或者即便给出正确答案(堪培拉),也会表现出比实际合理程度更高的不确定性。(这只是一个简化的例子。任何“有自尊”的大语言模型都知道各国首都,后文会再提。)

让人类来把关

因此,仅仅模仿文本的统计规律(也就是生成“流畅”的语言)并不足够。这种训练方式教会模型去说那些“听起来像是真的”,而不是“确实是对的”的话。 这种对流畅性的学习发生在所谓的“预训练”阶。我问 ChatGPT:在预训练之后,还使用了哪些方法来提高模型的准确性。为了确认,我反复问了同一个问题,结果却令人困惑——我得到了多种不同的回答。这恰恰说明:大语言模型本质上是概率性的。

不过,有两种方法在我得到的每一个回答中都出现了。我将这一点视为它们重要性的体现,并对其进行了进一步了解。第一种方法称为监督微调(supervised fine-tuning,简称 SFT)。在这一过程中人类首先为大量可能的输入提示配对“理想输出”我让 ChatGPT 举一个这样的配对示例,它给出了如下内容:

输入(提示):“用简单的语言解释引力是如何起作用的。” 输出(理想答案):“引力是一种使物体相互吸引的力。”

在预训练阶段(模型在这一阶段学习如何生成流畅的语言)之后,这些“理想输入–输出”配对会被用于对模型进行进一步训练。粗略地说,模型会生成自己的输出,随后由算法衡量这些输出与理想答案之间的差异,模型再通过调整内部参数来最小化这种差异(更准确地说,是最小化一个损失函数)。通过大量这样的训练样本,模型内部的概率分布会被逐步调整,使得那些被理想输入–输出配对标记为“正确”的回答,在统计意义上变得更有可能被生成。

在 SFT 之后,ChatGPT 还向我介绍了第二种方法,称为基于人类反馈的强化学习(reinforcement learning with human feedback,简称 RLHF)。在这一过程中,人类会与模型互动,并对模型生成的成千上万、甚至上百万条输出进行评分。利用这些评分数据,会训练出一个奖励模型,用于预测人类偏好:在给定一个提示和一个回答的情况下,它会输出一个分数,反映人类偏好该回答的可能性。随后,这个奖励模型会通过所谓的“强化学习”机制,用于对原始模型进行微调:原始模型生成输出,奖励模型对其打分,原始模型再更新自身的内部参数,以最大化获得的奖励

经过大量这样的训练,大语言模型逐渐学会生成那些人类会给予高评分的输出。这有助于模型与人类价值观保持一致。而既然“真实性”很可能正是这些价值观之一,那么这种方法也就有助于模型在事实性问题上给出更准确的答案。

看到在人类输入不仅在这两种方法中至关重要,而且在 ChatGPT 提到的其他一些(尽管并非全部)提升准确性的技术中同样如此,我既感到宽慰,又不免有些失望。(其中有一种我特别喜欢的方法,称为红队测试。在这种方法中,人类充当“对手”,刻意设法让模型出错,从而发现并修复其弱点。

在了解了这些方法之后,我接着询问 ChatGPT 自身的准确性。经过一番来回讨论,它给出了如下回答:


从chatGPT获取的截图

你有多确定?

这就引出了前文中的第 b)点:我们能否信任 ChatGPT 对自身准确性的评估?大语言模型在判断自身不确定性方面,到底表现如何?这个问题与“模型本身有多准确”并不相同。一种可能是:模型经常出错,但却能够准确地表达自己出错的概率。另一种可能则是:模型大多数时候是对的,但却错误地评估了自己正确的概率。

如果一个模型善于判断自身的置信度,那么就称它具有良好的校准性。粗略来说,这意味着:如果你向模型提出大量问题,而模型对这些回答都表示自己有 x% 的把握,那么最终大约应有 x% 的回答确实是正确的。

我问 ChatGPT 自己是否具有良好的校准性,它的回答是:“大体上是的,但并不完美。” 随后,它进一步拆解了这个回答,与前面对自身准确性的描述相呼应:


从chatGPT获取的截图

这倒也说得通——无论是人类还是人工智能,在预测未来时,我都不会指望它们具有很高的确定性。

但问题在于,大语言模型究竟是如何给出这样的置信度估计的?比如,它在判断赤道几内亚首都是马拉博时所给出的 99%。起初我以为,这只是模型内部概率的直接体现:也就是说,在预训练过程中,当模型见到“赤道几内亚的首都是”这句话时,有 99% 的情况下接下来出现的都是“马拉博”,或是类似这样的机制。

但 ChatGPT 告诉我,这种理解是错误的。它表示,这个 99% 是一种定性的估计,基于它所称的“推理”(reasoning)过程得出:


从chatGPT获取的截图

然而,即便是这种“推理”过程,其根本仍然建立在训练数据中所蕴含的统计模式之上。我就这一点向 ChatGPT 进一步追问,它也确认了这一结论。


从chatGPT获取的截图

鉴于 ChatGPT 的一切行为都建立在统计模式之上,它居然具有如此良好的校准性,着实让我感到惊讶。Williamson 在 INI 的报告中也证实,总体而言,大语言模型具有良好的校准性——它们在评估自身输出的置信度方面表现得相当不错。Williamson 还表示,她正与同事们一起研究这一现象背后的原因,相关研究成果将于不久后发表。

但如果你所关心的信息更加复杂,又会怎样呢?总体而言,大语言模型是否能够用语言准确概括其内部所包含的完整概率分布?Williamson 及其同事在一篇最新论文中研究了这一问题——而他们给出的答案是一个断然的“不”。

他们写道:现代的大语言模型在整体上都无法揭示自身究竟在哪些方面存在不确定性——无论是通过推理、思维链,还是通过显式微调,都做不到”他们还进一步指出:“模型的输出或许表面上采用了总结式的格式,但其中提到的只是随便某种可能性,而非大语言模型真正‘相信’的那些可能性。”

大语言模型无法总结自身真正“相信”的内容,这一点令人颇感震惊。不过,Williamson 及其同事也发现,存在一些相对简单的方法,可以帮助大语言模型在这一方面取得改进,因此未来的研究方向也相当清晰。他们写道:“我们预计,从自我反思(SelfReflect)基准指标出发,相关研究将取得进一步进展,从而解锁更加诚实、也更值得信赖的大语言模型的交互过程。”如果你希望了解更多细节,可以参阅他们的论文。

至此,我决定结束这次关于真理、不确定性以及大语言模型的探究。我曾询问 ChatGPT 这篇文章是否准确,并根据它的反馈做了一些修改;但与此同时,我也同样按照自己一贯的标准,采用传统的研究方法进行了核查。至少在目前,我仍然没有准备好完全信任 ChatGPT。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最高9.8分,美剧史上的入门级Top.10,建议收藏

最高9.8分,美剧史上的入门级Top.10,建议收藏

来看美剧
2026-01-04 20:33:49
后续!柬埔寨流浪女网红父亲发声,曝女儿不堪一面,邻居透露更多

后续!柬埔寨流浪女网红父亲发声,曝女儿不堪一面,邻居透露更多

阿纂看事
2026-01-04 21:49:32
街道办回应“扬尘逼迁”:是忘加水导致的误操作

街道办回应“扬尘逼迁”:是忘加水导致的误操作

映射生活的身影
2026-01-04 18:09:17
马杜罗来不及惊慌。

马杜罗来不及惊慌。

沈述慢撩
2026-01-04 18:58:29
新生儿剪脐带时疑被助产士剪断手指 家属:已申请医疗事故鉴定

新生儿剪脐带时疑被助产士剪断手指 家属:已申请医疗事故鉴定

红星新闻
2026-01-05 12:22:53
84岁“中国鞋王”汪海声明与儿子、儿媳断绝关系:中国人的民族品牌,绝不能让“美国身份的人”接班

84岁“中国鞋王”汪海声明与儿子、儿媳断绝关系:中国人的民族品牌,绝不能让“美国身份的人”接班

都市快报橙柿互动
2026-01-04 20:37:08
掘金4人20+仍输篮网:穆雷27+16助攻生涯新高 波特战旧主27+11

掘金4人20+仍输篮网:穆雷27+16助攻生涯新高 波特战旧主27+11

醉卧浮生
2026-01-05 07:18:32
逆转!山东崔凤祥捐赠文物事件,处理方式来了,视频作品全部下架

逆转!山东崔凤祥捐赠文物事件,处理方式来了,视频作品全部下架

火山詩话
2026-01-05 05:49:11
委副总统已代理总统职权,特朗普称要“管理”委内瑞拉,多国要求美释放马杜罗夫妇

委副总统已代理总统职权,特朗普称要“管理”委内瑞拉,多国要求美释放马杜罗夫妇

环球网资讯
2026-01-05 07:13:30
美国对委内瑞拉动手,对中国既是利空,也是利好,中国会如何抉择

美国对委内瑞拉动手,对中国既是利空,也是利好,中国会如何抉择

阿胡
2026-01-04 19:11:41
i茅台带崩了飞天价格

i茅台带崩了飞天价格

快马财媒
2026-01-05 07:30:13
委内瑞拉官员:美对委军事行动已致80人死亡

委内瑞拉官员:美对委军事行动已致80人死亡

财联社
2026-01-05 03:02:31
李在明在北京表态

李在明在北京表态

极目新闻
2026-01-05 08:37:18
李在明到北京的第一件事,不是和中方见面,而是去了另外一个地方

李在明到北京的第一件事,不是和中方见面,而是去了另外一个地方

军机Talk
2026-01-05 10:10:17
朴娜来「车上活春宫」!2经纪人开车被逼看全程 做一半还狂踢椅背

朴娜来「车上活春宫」!2经纪人开车被逼看全程 做一半还狂踢椅背

ETtoday星光云
2026-01-05 09:42:04
湖南女生游黄山失联,百米悬崖下发现遗体,景区被判担责15%,家属上诉:护栏存缺陷

湖南女生游黄山失联,百米悬崖下发现遗体,景区被判担责15%,家属上诉:护栏存缺陷

潇湘晨报
2026-01-05 07:14:13
美国破防也没辙,抓捕马杜罗不到24小时,中国牵头办金砖联合军演

美国破防也没辙,抓捕马杜罗不到24小时,中国牵头办金砖联合军演

文雅笔墨
2026-01-05 00:41:38
雷军首次公开承认!小米决定不做了!

雷军首次公开承认!小米决定不做了!

广告案例精选
2026-01-04 12:14:07
被美军抓获前,马杜罗其实已向特朗普发出“求救信号”

被美军抓获前,马杜罗其实已向特朗普发出“求救信号”

枫叶君评
2026-01-04 21:07:49
马斯克的“星链”卫星第一时间为委内瑞拉人民提供免费互联网

马斯克的“星链”卫星第一时间为委内瑞拉人民提供免费互联网

一种观点
2026-01-04 19:08:21
2026-01-05 13:11:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4445文章数 37360关注度
往期回顾 全部

科技要闻

雷军新年首播:确认汽车业务降速

头条要闻

媒体:美国捉拿马杜罗后 多位专家示警赖清德

头条要闻

媒体:美国捉拿马杜罗后 多位专家示警赖清德

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

黄宗泽夺双料视帝,泪洒颁奖台忆往昔

财经要闻

李迅雷:扩内需要把重心从"投"转向"消"

汽车要闻

不是9S是8X!极氪全新高性能旗舰SUV命名官宣

态度原创

教育
游戏
房产
手机
时尚

教育要闻

收藏:山东2026高中综评操作教程(教师端)

《大镖客2》发现全新彩蛋!7年来一直无人察觉

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

手机要闻

联想moto X70 Air Pro新机配置曝光:搭载第五代骁龙8,支持手写笔

今年冬天最流行的4双鞋,配阔腿裤时髦又高级!

无障碍浏览 进入关怀版