网易首页 > 网易号 > 正文 申请入驻

OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首

0
分享至

机器之心报道

编辑:Panda

AI 最臭名昭著的 Bug 是什么?不是代码崩溃,而是「幻觉」—— 模型自信地编造事实,让你真假难辨。这个根本性挑战,是阻碍我们完全信任 AI 的关键障碍。

大模型会有幻觉,这几乎已经成为一个常识,让每一个严肃使用大模型的人都不得不谨慎小心。OpenAI 也指出:「ChatGPT 也会产生幻觉。GPT-5 的幻觉明显更少,尤其是在执行推理时,但幻觉仍然会发生。幻觉仍然是所有大型语言模型面临的一大根本挑战。」

尽管现在学术界已经提出了各种各样用来降低模型幻觉的方法,但目前尚未出现能彻底「根治」模型幻觉的良方。

那么,大模型究竟为什么会出现幻觉呢?今天,OpenAI 罕见发表论文,系统性地揭示了幻觉的根源。

首先,定义幻觉。OpenAI 给出的简单定义是:「模型自信地生成不真实答案的情况。」

至于原因,简单来说就是:标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励

  • 论文标题:Why Language Models Hallucinate
  • 论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

下面我们就来具体看看 OpenAI 究竟发现了什么。

什么是幻觉?

幻觉是语言模型生成的看似合理但却错误的陈述。

即使看似简单的问题,它们也可能以出人意料的方式出现。OpenAI 举了个例子,当向不同的广泛使用的聊天机器人询问 Adam Tauman Kalai(论文一作)的博士论文标题时,它们自信地给出了三个不同的答案,但没有一个是正确的。

当询问他的生日时,它给出了三个不同的日期,同样都是错误的。

为了测试而学习

OpenAI 表示,幻觉持续存在,部分原因是当前的评估方法设置了错误的激励机制。虽然评估本身不会直接导致幻觉,但大多数评估模型性能的方式会鼓励模型进行猜测,而不是诚实地面对不确定性。

可以把它想象成一个多项选择题测试。如果你不知道答案,但随意猜测,你可能会很幸运地猜对。留空则必定得零分。同样,当模型仅根据准确度(即完全答对问题的百分比)进行评分时,它们会被鼓励进行猜测,而不是承认「我不知道」。

再举一个例子,假设一个语言模型被问及某人的生日,但它不知道。如果它猜测「9 月 10 日」,那么它有 1/365 的概率猜对。说「我不知道」则必定得零分。在数千道测试题中,猜测型模型最终在记分牌上的表现要优于谨慎且承认不确定的模型。

对于只有一个「正确答案」的问题,可以考虑三类答案:准确答案、错误答案以及模型不愿冒险猜测的弃权答案。

OpenAI 表示,弃权答案是谦逊(humility)指标的一部分,而谦逊是 OpenAI 的核心价值观之一。

大多数分数指标会根据准确度对模型进行优先排序,但错误答案比弃权答案更糟糕。OpenAI 的模型规范指出,指出不确定性或要求澄清会更好,而不是自信地提供可能不正确的信息

以 GPT5 系统卡中的 SimpleQA 评估为例。

在准确度方面,更早期的 OpenAI o4-mini 模型表现略好。然而,其错误率(即幻觉率)明显较高。在不确定的情况下进行策略性猜测可以提高准确度,但也会增加错误和幻觉。

在对数十次评估的结果进行平均时,大多数基准测试都会剔除准确度指标,但这会导致对错之间的错误二分法。

在像 SimpleQA 这样的简单评估中,一些模型的准确度接近 100%,从而消除了幻觉。然而,在更具挑战性的评估和实际使用中,准确度会固定在 100% 以下,因为有些问题的答案由于各种原因(例如信息不可用、小型模型的思维能力有限或需要澄清的歧义)而无法确定。

尽管如此,仅以准确度为衡量标准的评估指标仍然占据着排行榜和模型卡的主导地位,这就会鼓励开发者构建能够猜测而不是退缩的模型。

正因为此,即使模型变得更加先进,它们仍然会产生幻觉。原因之一便是它们倾向于自信地给出错误答案,而不是承认不确定。

更好的评估方法

对此,OpenAI 指出了一个简单的解决办法:对自信错误(confidential error)的惩罚力度大于对不确定性的惩罚力度,并对恰当表达不确定性的行为给予部分加分。

这个想法并不新鲜。一些标准化测试长期以来一直使用对错误答案进行负面评分或对留空问题给予部分加分的方法来阻止盲猜。一些研究团队也探索了考虑不确定性和校准的评估方法。

但 OpenAI 表示,仅仅增加一些新的不确定性感知测试是不够的。广泛使用的、基于准确度的评估方法需要更新,使其评分能够阻止猜测。

如果主要评估指标依然继续为模型幸运的猜测给予奖励,模型就会继续学习猜测。修改评估指标可以扩大降低幻觉技术的采用范围,包括新开发的和先前研究的技术。

幻觉是如何从下一个词预测中产生的

前面已经讨论过为什么幻觉如此难以摆脱,但这些高度具体的事实性错误究竟从何而来?

毕竟,大型预训练模型很少出现其他类型的错误,例如拼写错误和括号不匹配。

OpenAI 表示,区别必定在于数据中存在哪些模式。

语言模型首先通过预训练进行学习,这是一个预测海量文本中下一个词的过程。

与传统的机器学习问题不同,每个语句没有「真 / 假」标签。该模型只看到流畅语言的正面示例,并且必须去近似整体分布。

当没有任何被标注为无效的示例时,区分有效语句和无效语句会更加困难。但即使有标签,一些错误也是不可避免的。

为了理解原因,可以考虑一个更简单的类比。在图像识别中,如果数百万张猫狗照片被标记为「猫」或「狗」,算法可以学会可靠地对它们进行分类。但想象一下,如果用宠物的生日来标记每张宠物照片。由于生日本质上是随机的,无论算法多么先进,这项任务总是会产生错误。

同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此这些错误会随着规模的扩大而消失。但像宠物的生日这样任意的低频事实,无法仅凭模式预测,因此会导致幻觉。

OpenAI 的分析解释了哪些类型的幻觉会由下一个词预测产生。理想情况下,预训练后的后续阶段应该能够消除这些幻觉,但由于上一节中描述的原因,这并未完全实现。

总结

OpenAI 表示:「我们希望本文中的统计学视角能够阐明幻觉的本质,并驳斥一些常见的误解」:

有人宣称:幻觉可以通过提高准确度来消除,因为 100% 准确的模型永远不会产生幻觉。

发现:准确度永远不会达到 100%,因为无论模型规模、搜索和推理能力如何,有些现实世界的问题本质上是无法回答的。

有人宣称:幻觉是不可避免的。

发现:幻觉并非不可避免,因为语言模型在不确定时可以放弃回答。

有人宣称:避免幻觉需要一定程度的智能,而这只有大型模型才能实现。

发现:小型模型更容易了解自身的局限性。例如,当被要求回答毛利语问题时,一个不懂毛利语的小型模型可以直接回答「我不知道」,而一个认识一些毛利语的模型则必须确定其置信度。正如论文中所讨论的,「校准」所需的计算量远小于保持准确。

有人宣称:幻觉是现代语言模型的一个神秘缺陷。

发现:我们可以理解幻觉产生以及在评估中获得奖励的统计学机制。

有人宣称:要测量幻觉,我们只需要一个好的幻觉评估。

发现:已有研究者发表了一些幻觉评估。然而,一个好的幻觉评估与数百种传统的基于准确度的评估相比几乎没有效果,这些评估会惩罚谦逊并奖励猜测。相反,所有主要的评估指标都需要重新设计,以奖励不确定性的表达。

OpenAI 表示:「我们最新的模型幻觉率更低,并且我们将继续努力,进一步降低语言模型输出的置信错误率。」

顺带一提,据 TechCrunch 报道,OpenAI 正在重组其模型行为(Model Behavior)团队,这是一支规模虽小但颇具影响力的研究人员团队,他们决定着该公司的 AI 模型与人互动的方式。现在,该团队将向 OpenAI 的后期训练主管 Max Schwarzer 汇报。

而该团队的创始负责人 Joanne Jang 则将在公司启动一个新项目,名为 oai Labs。据她的推文介绍:「这是一个以研究为导向的团队,专注于发明和设计人们与 AI 协作的新界面原型。」

https://openai.com/index/why-language-models-hallucinate/

https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/

https://x.com/joannejang/status/1964107648296767820

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国米免签卡塞米罗解析:利弊权衡之下,典礼中场能否在意甲重逢?

国米免签卡塞米罗解析:利弊权衡之下,典礼中场能否在意甲重逢?

宝哥爱足球
2026-03-25 22:51:46
加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

懂球帝
2026-03-26 04:09:06
给机关事业单位退休人员发生活补贴合理合规,看看这些地方的做法

给机关事业单位退休人员发生活补贴合理合规,看看这些地方的做法

郭爱华追问教育
2026-03-25 06:25:09
同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

铭记历史呀
2026-03-26 11:13:56
油车车主“真情流露”:就算油价8块8,我也不想买电车!

油车车主“真情流露”:就算油价8块8,我也不想买电车!

少数派报告Report
2026-03-25 09:51:04
伦纳德:最佳阵容奖项是很棒的个人荣誉 每个人都在为之努力

伦纳德:最佳阵容奖项是很棒的个人荣誉 每个人都在为之努力

北青网-北京青年报
2026-03-26 20:39:08
老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

贱议你读史
2026-03-06 23:28:50
连乌度卡都对他放弃了!火箭锋线新援的表现看起来真是太糟糕了?

连乌度卡都对他放弃了!火箭锋线新援的表现看起来真是太糟糕了?

稻谷与小麦
2026-03-27 00:15:06
“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

环球网资讯
2026-03-25 23:13:02
电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

封面新闻
2026-03-26 18:56:02
命中迪莫纳,伊朗终于等来了致命机会

命中迪莫纳,伊朗终于等来了致命机会

深度报
2026-03-25 22:44:24
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
延期投入运营!停滞20年,南京“金色烂尾楼”

延期投入运营!停滞20年,南京“金色烂尾楼”

科学发掘
2026-03-26 11:24:02
谭瑞松,被判死缓

谭瑞松,被判死缓

新京报政事儿
2026-03-25 17:17:03
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
狂轰51分创纪录!中国男篮又一18岁超级新星崛起:场均39+4冲冠

狂轰51分创纪录!中国男篮又一18岁超级新星崛起:场均39+4冲冠

李喜林篮球绝杀
2025-11-17 12:10:02
2026年1-2月,中国进口了全球46%的芯片,但出口了25%的芯片

2026年1-2月,中国进口了全球46%的芯片,但出口了25%的芯片

互联网.乱侃秀
2026-03-23 10:47:40
假如台州市政治中心还在临海,台州市会是个什么样子呢?

假如台州市政治中心还在临海,台州市会是个什么样子呢?

据说说娱乐
2026-03-26 12:47:01
巴足协主席:安帅续约接近完成;不会干预内马尔是否入选问题

巴足协主席:安帅续约接近完成;不会干预内马尔是否入选问题

懂球帝
2026-03-27 03:29:06
1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

文史明鉴
2026-03-25 19:14:13
2026-03-27 03:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
手机
教育
旅游
公开课

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版