网易首页 > 网易号 > 正文 申请入驻

OpenAI发布研究报告:揭示大语言模型“幻觉”现象背后的成因

0
分享至

OpenAI近日发布研究报告,针对当前广受关注的“语言模型幻觉(hallucination)”问题进行深入剖析。报告指出,即便当前的语言模型能力不断增强,模型自信地生成不真实答案的“幻觉”问题依然难以彻底根除。OpenAI的最新论文认为,这一现象源自目前主流的训练和评估方式更倾向于奖励“猜测”而非“承认未知”。

什么是语言模型的“幻觉”?

所谓“幻觉”,指的是语言模型生成看似合理但实际上错误的陈述。即便面对表面上极其直接的问题,模型也可能出现幻觉。例如,论文作者之一Adam Tauman Kalai的博士论文题目及生日,主流聊天机器人都曾自信地给出多个不同、但实际均不正确的答案。

评估偏差助长模型“猜测”

OpenAI指出,当前模型评估方法本质上激励了“猜测”——类似于选择题考试中,答错虽扣分但完全空白就得零分。因此,即使模型并不确定答案,也更倾向于给出猜测答案以获取更高准确率,而非坦诚表示“不知道”。这一机制导致模型在排行榜上的得分提高,但相应地幻觉现象也更加普遍。

实际数据进一步说明了这一点:在同一组评估中,旧版模型尽管准确率略高,但其错误率(即幻觉发生率)远高于那些选择性回避不确定问题的模型。

下一步:改革评估标准、强调“不确定性”

报告建议,未来的模型评估体系应对自信的错误给予更高惩罚,同时对恰当表达不确定性的模型给予部分分数。这一思路借鉴了部分教育领域的负分制和部分学术团体的前沿研究。OpenAI强调,仅在部分评估体系中试行新办法是不够的,主流的基于准确率的评分标准应全面革新,否则模型开发者会持续优化“猜测”算法。

模型“幻觉”来自训练机制

研究分析称,大语言模型的主要训练方式是序列预测(即“下一个词预测”),缺乏负面示例,因此模型更擅长生成流畅语言而非判别真假。在模型学习过程中,常见知识(如拼写)可通过归纳掌握,但不常见甚至随机性的事实(如生日)则难以通过语言规律推断,导致出现幻觉现象。

主要结论与前景展望

OpenAI报告澄清了社会对幻觉的诸多误解,并得出如下结论:

  • 幻觉无法通过提升准确率彻底消除,因为客观上有些问题无法精准回答。

  • 幻觉并非不可避免,模型应在不确定时选择回避。

  • 幻觉并不只是大模型的“智能”问题,较小的模型在某些边界条件下反而更能坦承“不知道”。

  • 幻觉是当前评估体系激励机制下的产物,通过科学的评级机制可望大幅减少。

OpenAI表示,其最新模型的幻觉率已显著下降,团队将持续努力,进一步降低语言模型自信输出错误信息的概率。

报告作者包括Adam Kalai、Santosh Vempala(佐治亚理工学院)、Ofir Nachum、Eddie Zhang、David Robinson、Saachi Jain、Eric Mitchell、Alex Beutel和Johannes Heidecke。

阅读官方博客原文:

https://openai.com/index/why-language-models-hallucinate/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军死伤5800人!五角大楼下令大举增兵,伊朗:动员百万人迎战

美军死伤5800人!五角大楼下令大举增兵,伊朗:动员百万人迎战

大国之翼
2026-03-28 07:06:24
全球唯一双座隐身战机!歼-20S跨界作战有多震撼?专家解析

全球唯一双座隐身战机!歼-20S跨界作战有多震撼?专家解析

齐鲁壹点
2026-03-27 06:56:45
NBA官方MVP榜:文班亚马火速登顶!这波MVP争夺战太激烈了

NBA官方MVP榜:文班亚马火速登顶!这波MVP争夺战太激烈了

仰卧撑FTUer
2026-03-27 22:41:07
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
全球仅3国能造,俄罗斯拒绝中方请求,我国一气之下冲至世界领先

全球仅3国能造,俄罗斯拒绝中方请求,我国一气之下冲至世界领先

史行途
2026-03-28 03:44:47
德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

路医生健康科普
2026-03-04 12:30:03
普通人接触富人的生活有多震撼?网友:吸引力法则让我刷到你!

普通人接触富人的生活有多震撼?网友:吸引力法则让我刷到你!

解读热点事件
2026-03-22 00:05:09
李楠谈苹果CEO库克:他没有活成第二个乔布斯 把库存芯片当作盈利的筹码

李楠谈苹果CEO库克:他没有活成第二个乔布斯 把库存芯片当作盈利的筹码

快科技
2026-03-27 22:17:35
铁出天际,山东后卫组合高诗岩&于德豪全场合计7中0合砍1分

铁出天际,山东后卫组合高诗岩&于德豪全场合计7中0合砍1分

懂球帝
2026-03-27 22:17:05
香港知名冻龄女星文颂娴,时隔二十年复出拍戏,婚姻状态耐人寻味

香港知名冻龄女星文颂娴,时隔二十年复出拍戏,婚姻状态耐人寻味

绚丽的画卷
2026-03-27 23:44:30
放弃轰炸美航母?伊朗枪口大调转,这招反杀让整个中东胆寒

放弃轰炸美航母?伊朗枪口大调转,这招反杀让整个中东胆寒

音乐时光的娱乐
2026-03-28 04:06:03
内斯塔:我承认自己也有过很多次假摔,绝不会去指责巴斯托尼

内斯塔:我承认自己也有过很多次假摔,绝不会去指责巴斯托尼

懂球帝
2026-03-28 07:00:10
看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

八斗小先生
2026-03-20 15:24:18
湖北6旬女子请屠夫杀猪时,因说了句猪肠没处理干净遭屠夫儿子砍杀,凶手被鉴定为精神病!家属:没收到任何道歉

湖北6旬女子请屠夫杀猪时,因说了句猪肠没处理干净遭屠夫儿子砍杀,凶手被鉴定为精神病!家属:没收到任何道歉

大风新闻
2026-03-27 22:04:08
前白宫经济学家:美国升级伊朗战争的概率超五成 料美联储别无选择只能加息

前白宫经济学家:美国升级伊朗战争的概率超五成 料美联储别无选择只能加息

财联社
2026-03-27 23:14:53
美媒:若中国不偿还百年前的债务,美国也将不承认欠华8600亿美元

美媒:若中国不偿还百年前的债务,美国也将不承认欠华8600亿美元

文史达观
2025-03-18 12:54:58
张雪峰二婚妻子履历遭深扒,海量生活美照曝光,账号紧急变私密

张雪峰二婚妻子履历遭深扒,海量生活美照曝光,账号紧急变私密

古希腊掌管松饼的神
2026-03-26 10:25:26
课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

谈史论天地
2026-03-24 15:45:06
字节跳动发布2026年首份纪律通报:65名员工触碰纪律红线被辞退,其中7人因涉嫌刑事犯罪被移交司法机关处理

字节跳动发布2026年首份纪律通报:65名员工触碰纪律红线被辞退,其中7人因涉嫌刑事犯罪被移交司法机关处理

每日经济新闻
2026-03-27 20:24:41
朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

唠叨说历史
2026-03-18 13:40:57
2026-03-28 07:44:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
67123文章数 70132关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

特朗普称暂停打击伊能源设施不到1天 美以空袭伊核设施

头条要闻

特朗普称暂停打击伊能源设施不到1天 美以空袭伊核设施

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

旅游
数码
亲子
房产
游戏

旅游要闻

日照岚山“打飞的”赏春成新时尚

数码要闻

三星电子公布消费级固态硬盘BM9K1,高性能PCIe Gen5 QLC产品

亲子要闻

天气暖和了,安排一套孩子自己能玩半天,激发孩子的动手能力,真的是带娃省妈啊#太空沙解压 #太空沙花样...

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

离谱!PS5全系暴涨 GTA6还没出主机先买不起了

无障碍浏览 进入关怀版