网易首页 > 网易号 > 正文 申请入驻

OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首

0
分享至



机器之心报道

编辑:Panda

AI 最臭名昭著的 Bug 是什么?不是代码崩溃,而是「幻觉」—— 模型自信地编造事实,让你真假难辨。这个根本性挑战,是阻碍我们完全信任 AI 的关键障碍。

大模型会有幻觉,这几乎已经成为一个常识,让每一个严肃使用大模型的人都不得不谨慎小心。OpenAI 也指出:「ChatGPT 也会产生幻觉。GPT-5 的幻觉明显更少,尤其是在执行推理时,但幻觉仍然会发生。幻觉仍然是所有大型语言模型面临的一大根本挑战。」

尽管现在学术界已经提出了各种各样用来降低模型幻觉的方法,但目前尚未出现能彻底「根治」模型幻觉的良方。

那么,大模型究竟为什么会出现幻觉呢?今天,OpenAI 罕见发表论文,系统性地揭示了幻觉的根源。

首先,定义幻觉。OpenAI 给出的简单定义是:「模型自信地生成不真实答案的情况。」

至于原因,简单来说就是:标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励



  • 论文标题:Why Language Models Hallucinate
  • 论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

下面我们就来具体看看 OpenAI 究竟发现了什么。

什么是幻觉?

幻觉是语言模型生成的看似合理但却错误的陈述。

即使看似简单的问题,它们也可能以出人意料的方式出现。OpenAI 举了个例子,当向不同的广泛使用的聊天机器人询问 Adam Tauman Kalai(论文一作)的博士论文标题时,它们自信地给出了三个不同的答案,但没有一个是正确的。



当询问他的生日时,它给出了三个不同的日期,同样都是错误的。



为了测试而学习

OpenAI 表示,幻觉持续存在,部分原因是当前的评估方法设置了错误的激励机制。虽然评估本身不会直接导致幻觉,但大多数评估模型性能的方式会鼓励模型进行猜测,而不是诚实地面对不确定性。

可以把它想象成一个多项选择题测试。如果你不知道答案,但随意猜测,你可能会很幸运地猜对。留空则必定得零分。同样,当模型仅根据准确度(即完全答对问题的百分比)进行评分时,它们会被鼓励进行猜测,而不是承认「我不知道」。

再举一个例子,假设一个语言模型被问及某人的生日,但它不知道。如果它猜测「9 月 10 日」,那么它有 1/365 的概率猜对。说「我不知道」则必定得零分。在数千道测试题中,猜测型模型最终在记分牌上的表现要优于谨慎且承认不确定的模型。

对于只有一个「正确答案」的问题,可以考虑三类答案:准确答案、错误答案以及模型不愿冒险猜测的弃权答案。

OpenAI 表示,弃权答案是谦逊(humility)指标的一部分,而谦逊是 OpenAI 的核心价值观之一。

大多数分数指标会根据准确度对模型进行优先排序,但错误答案比弃权答案更糟糕。OpenAI 的模型规范指出,指出不确定性或要求澄清会更好,而不是自信地提供可能不正确的信息

以 GPT5 系统卡中的 SimpleQA 评估为例。



在准确度方面,更早期的 OpenAI o4-mini 模型表现略好。然而,其错误率(即幻觉率)明显较高。在不确定的情况下进行策略性猜测可以提高准确度,但也会增加错误和幻觉。

在对数十次评估的结果进行平均时,大多数基准测试都会剔除准确度指标,但这会导致对错之间的错误二分法。



在像 SimpleQA 这样的简单评估中,一些模型的准确度接近 100%,从而消除了幻觉。然而,在更具挑战性的评估和实际使用中,准确度会固定在 100% 以下,因为有些问题的答案由于各种原因(例如信息不可用、小型模型的思维能力有限或需要澄清的歧义)而无法确定。

尽管如此,仅以准确度为衡量标准的评估指标仍然占据着排行榜和模型卡的主导地位,这就会鼓励开发者构建能够猜测而不是退缩的模型。

正因为此,即使模型变得更加先进,它们仍然会产生幻觉。原因之一便是它们倾向于自信地给出错误答案,而不是承认不确定。

更好的评估方法

对此,OpenAI 指出了一个简单的解决办法:对自信错误(confidential error)的惩罚力度大于对不确定性的惩罚力度,并对恰当表达不确定性的行为给予部分加分。

这个想法并不新鲜。一些标准化测试长期以来一直使用对错误答案进行负面评分或对留空问题给予部分加分的方法来阻止盲猜。一些研究团队也探索了考虑不确定性和校准的评估方法。

但 OpenAI 表示,仅仅增加一些新的不确定性感知测试是不够的。广泛使用的、基于准确度的评估方法需要更新,使其评分能够阻止猜测。

如果主要评估指标依然继续为模型幸运的猜测给予奖励,模型就会继续学习猜测。修改评估指标可以扩大降低幻觉技术的采用范围,包括新开发的和先前研究的技术。

幻觉是如何从下一个词预测中产生的

前面已经讨论过为什么幻觉如此难以摆脱,但这些高度具体的事实性错误究竟从何而来?

毕竟,大型预训练模型很少出现其他类型的错误,例如拼写错误和括号不匹配。

OpenAI 表示,区别必定在于数据中存在哪些模式。

语言模型首先通过预训练进行学习,这是一个预测海量文本中下一个词的过程。

与传统的机器学习问题不同,每个语句没有「真 / 假」标签。该模型只看到流畅语言的正面示例,并且必须去近似整体分布。

当没有任何被标注为无效的示例时,区分有效语句和无效语句会更加困难。但即使有标签,一些错误也是不可避免的。

为了理解原因,可以考虑一个更简单的类比。在图像识别中,如果数百万张猫狗照片被标记为「猫」或「狗」,算法可以学会可靠地对它们进行分类。但想象一下,如果用宠物的生日来标记每张宠物照片。由于生日本质上是随机的,无论算法多么先进,这项任务总是会产生错误。

同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此这些错误会随着规模的扩大而消失。但像宠物的生日这样任意的低频事实,无法仅凭模式预测,因此会导致幻觉。

OpenAI 的分析解释了哪些类型的幻觉会由下一个词预测产生。理想情况下,预训练后的后续阶段应该能够消除这些幻觉,但由于上一节中描述的原因,这并未完全实现。

总结

OpenAI 表示:「我们希望本文中的统计学视角能够阐明幻觉的本质,并驳斥一些常见的误解」:

有人宣称:幻觉可以通过提高准确度来消除,因为 100% 准确的模型永远不会产生幻觉。

发现:准确度永远不会达到 100%,因为无论模型规模、搜索和推理能力如何,有些现实世界的问题本质上是无法回答的。

有人宣称:幻觉是不可避免的。

发现:幻觉并非不可避免,因为语言模型在不确定时可以放弃回答。

有人宣称:避免幻觉需要一定程度的智能,而这只有大型模型才能实现。

发现:小型模型更容易了解自身的局限性。例如,当被要求回答毛利语问题时,一个不懂毛利语的小型模型可以直接回答「我不知道」,而一个认识一些毛利语的模型则必须确定其置信度。正如论文中所讨论的,「校准」所需的计算量远小于保持准确。

有人宣称:幻觉是现代语言模型的一个神秘缺陷。

发现:我们可以理解幻觉产生以及在评估中获得奖励的统计学机制。

有人宣称:要测量幻觉,我们只需要一个好的幻觉评估。

发现:已有研究者发表了一些幻觉评估。然而,一个好的幻觉评估与数百种传统的基于准确度的评估相比几乎没有效果,这些评估会惩罚谦逊并奖励猜测。相反,所有主要的评估指标都需要重新设计,以奖励不确定性的表达。

OpenAI 表示:「我们最新的模型幻觉率更低,并且我们将继续努力,进一步降低语言模型输出的置信错误率。」

顺带一提,据 TechCrunch 报道,OpenAI 正在重组其模型行为(Model Behavior)团队,这是一支规模虽小但颇具影响力的研究人员团队,他们决定着该公司的 AI 模型与人互动的方式。现在,该团队将向 OpenAI 的后期训练主管 Max Schwarzer 汇报。

而该团队的创始负责人 Joanne Jang 则将在公司启动一个新项目,名为 oai Labs。据她的推文介绍:「这是一个以研究为导向的团队,专注于发明和设计人们与 AI 协作的新界面原型。」



https://openai.com/index/why-language-models-hallucinate/

https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/

https://x.com/joannejang/status/1964107648296767820

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外国观众在俄罗斯国歌奏响时拒绝起立

外国观众在俄罗斯国歌奏响时拒绝起立

看看新闻Knews
2025-11-10 23:16:02
纳指涨超2%!英伟达涨近6%,市值大增1.9万亿元!存储概念股普涨,闪迪涨近12%!金价涨2.8%

纳指涨超2%!英伟达涨近6%,市值大增1.9万亿元!存储概念股普涨,闪迪涨近12%!金价涨2.8%

每日经济新闻
2025-11-11 07:00:06
宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

鋭娱之乐
2025-11-10 20:55:45
人类有多渺小?已飞252亿公里的飞船,最后传回的照片令人敬畏!

人类有多渺小?已飞252亿公里的飞船,最后传回的照片令人敬畏!

火星一号
2025-11-10 13:53:58
紫牛热点|绝味鸭脖标价方式遭吐槽:半斤鸭舌89元,消费者结账直呼太贵

紫牛热点|绝味鸭脖标价方式遭吐槽:半斤鸭舌89元,消费者结账直呼太贵

扬子晚报
2025-11-10 19:59:10
某国企员工长期访问境外反华网站,观看涉我政治谣言视频并下载传播,被国家安全机关依法逮捕

某国企员工长期访问境外反华网站,观看涉我政治谣言视频并下载传播,被国家安全机关依法逮捕

每日经济新闻
2025-11-10 14:29:12
重庆通报:初步判断被污染,正全面排查

重庆通报:初步判断被污染,正全面排查

澎湃新闻
2025-11-11 01:01:05
李连杰从一身病态到健步如飞,倪萍也是如此,难道真有医学奇迹?

李连杰从一身病态到健步如飞,倪萍也是如此,难道真有医学奇迹?

魔都姐姐杂谈
2025-11-10 19:27:33
休想回国!我国体坛三大叛徒,夺冠后不承认是国人,结局大快人心

休想回国!我国体坛三大叛徒,夺冠后不承认是国人,结局大快人心

梦录的西方史话
2025-11-10 17:42:25
台海观澜 | 祭奠受难者,郑丽文打响反击民进党舆论霸权第一枪

台海观澜 | 祭奠受难者,郑丽文打响反击民进党舆论霸权第一枪

经济观察报
2025-11-10 16:30:08
骑行圈50岁大叔与20多岁姑娘开撕!这些圈子有多乱,颠覆你的认知

骑行圈50岁大叔与20多岁姑娘开撕!这些圈子有多乱,颠覆你的认知

魔都姐姐杂谈
2025-11-10 13:13:33
雷迪克:詹姆斯今日将与湖人下属球队一同进行训练以恢复状态

雷迪克:詹姆斯今日将与湖人下属球队一同进行训练以恢复状态

懂球帝
2025-11-11 08:19:14
曾医生的丈夫被网友扒出后,更加证明了她的“不简单”!

曾医生的丈夫被网友扒出后,更加证明了她的“不简单”!

诗意世界
2025-11-09 13:19:18
张雪峰现身伍佰演唱会,妻子靠肩上侧颜很美,甜蜜互动像极了热恋

张雪峰现身伍佰演唱会,妻子靠肩上侧颜很美,甜蜜互动像极了热恋

阅尽
2025-11-10 13:31:22
喜剧电影《年会不能停!2》发布首张概念海报,张若昀、白客主演

喜剧电影《年会不能停!2》发布首张概念海报,张若昀、白客主演

IT之家
2025-11-10 11:07:08
李斌突然卸任,蔚来要变天了

李斌突然卸任,蔚来要变天了

新浪财经
2025-11-10 20:11:32
官方:恩佐、阿尔瓦雷斯、朱利亚诺和莫利纳退出阿根廷大名单

官方:恩佐、阿尔瓦雷斯、朱利亚诺和莫利纳退出阿根廷大名单

懂球帝
2025-11-10 19:53:05
张家口一小区车库沉降多处墙体开裂,所涉楼栋仍有部分业主未搬离,业主:有人上门劝说搬离半年补贴一万元,我们的诉求是退房

张家口一小区车库沉降多处墙体开裂,所涉楼栋仍有部分业主未搬离,业主:有人上门劝说搬离半年补贴一万元,我们的诉求是退房

极目新闻
2025-11-10 23:15:59
上海最新通报!任英广被查,涉嫌严重违纪违法

上海最新通报!任英广被查,涉嫌严重违纪违法

鲁中晨报
2025-11-10 17:51:11
湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

娜乌和西卡
2025-11-10 13:50:19
2025-11-11 08:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11688文章数 142501关注度
往期回顾 全部

科技要闻

买得到芯片的美国科技巨头,买不到电了

头条要闻

小区车库沉降墙体开裂 所涉楼栋有业主未搬离:要退房

头条要闻

小区车库沉降墙体开裂 所涉楼栋有业主未搬离:要退房

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

北大医药董事长被抓 巨额资金去向不明

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

房产
本地
时尚
教育
旅游

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

本地新闻

这届干饭人,已经把博物馆吃成了食堂

女人过了40岁穿衣别老气横秋,看看这些日系穿搭,得体又显瘦

教育要闻

家庭教育最怕的就是甩锅式教育

旅游要闻

石家庄机场 为旅客搭建“冰雪游空中通道”

无障碍浏览 进入关怀版