网易首页 > 网易号 > 正文 申请入驻

OpenAI发布研究报告:揭示大语言模型“幻觉”现象背后的成因

0
分享至

OpenAI近日发布研究报告,针对当前广受关注的“语言模型幻觉(hallucination)”问题进行深入剖析。报告指出,即便当前的语言模型能力不断增强,模型自信地生成不真实答案的“幻觉”问题依然难以彻底根除。OpenAI的最新论文认为,这一现象源自目前主流的训练和评估方式更倾向于奖励“猜测”而非“承认未知”。



什么是语言模型的“幻觉”?

所谓“幻觉”,指的是语言模型生成看似合理但实际上错误的陈述。即便面对表面上极其直接的问题,模型也可能出现幻觉。例如,论文作者之一Adam Tauman Kalai的博士论文题目及生日,主流聊天机器人都曾自信地给出多个不同、但实际均不正确的答案。

评估偏差助长模型“猜测”

OpenAI指出,当前模型评估方法本质上激励了“猜测”——类似于选择题考试中,答错虽扣分但完全空白就得零分。因此,即使模型并不确定答案,也更倾向于给出猜测答案以获取更高准确率,而非坦诚表示“不知道”。这一机制导致模型在排行榜上的得分提高,但相应地幻觉现象也更加普遍。

实际数据进一步说明了这一点:在同一组评估中,旧版模型尽管准确率略高,但其错误率(即幻觉发生率)远高于那些选择性回避不确定问题的模型。

下一步:改革评估标准、强调“不确定性”

报告建议,未来的模型评估体系应对自信的错误给予更高惩罚,同时对恰当表达不确定性的模型给予部分分数。这一思路借鉴了部分教育领域的负分制和部分学术团体的前沿研究。OpenAI强调,仅在部分评估体系中试行新办法是不够的,主流的基于准确率的评分标准应全面革新,否则模型开发者会持续优化“猜测”算法。

模型“幻觉”来自训练机制

研究分析称,大语言模型的主要训练方式是序列预测(即“下一个词预测”),缺乏负面示例,因此模型更擅长生成流畅语言而非判别真假。在模型学习过程中,常见知识(如拼写)可通过归纳掌握,但不常见甚至随机性的事实(如生日)则难以通过语言规律推断,导致出现幻觉现象。

主要结论与前景展望

OpenAI报告澄清了社会对幻觉的诸多误解,并得出如下结论:

  • 幻觉无法通过提升准确率彻底消除,因为客观上有些问题无法精准回答。

  • 幻觉并非不可避免,模型应在不确定时选择回避。

  • 幻觉并不只是大模型的“智能”问题,较小的模型在某些边界条件下反而更能坦承“不知道”。

  • 幻觉是当前评估体系激励机制下的产物,通过科学的评级机制可望大幅减少。

OpenAI表示,其最新模型的幻觉率已显著下降,团队将持续努力,进一步降低语言模型自信输出错误信息的概率。

报告作者包括Adam Kalai、Santosh Vempala(佐治亚理工学院)、Ofir Nachum、Eddie Zhang、David Robinson、Saachi Jain、Eric Mitchell、Alex Beutel和Johannes Heidecke。

阅读官方博客原文:

https://openai.com/index/why-language-models-hallucinate/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梁光烈同志夫人杨桂珍女士逝世,享年86岁

梁光烈同志夫人杨桂珍女士逝世,享年86岁

澎湃新闻
2025-09-15 09:52:29
空警-3000再次试飞,有望在2027年服役,届时将领先美国整整两代!

空警-3000再次试飞,有望在2027年服役,届时将领先美国整整两代!

战争与帝国
2025-09-14 22:12:23
鸡娃不行就换赛道吧,网传36岁母亲因儿子叛逆难关,抑郁绝望去世

鸡娃不行就换赛道吧,网传36岁母亲因儿子叛逆难关,抑郁绝望去世

眼光很亮
2025-09-14 21:42:52
日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

红梦史说
2025-09-14 06:40:02
贾国龙再度引燃“战火”!罗永浩:谁弄到西贝的预制菜,每袋1000

贾国龙再度引燃“战火”!罗永浩:谁弄到西贝的预制菜,每袋1000

明月杂谈
2025-09-15 04:59:40
妈妈亲手缝的NIKE书包火了!品牌留言要送礼物,当事人:已经联系礼物还未寄到

妈妈亲手缝的NIKE书包火了!品牌留言要送礼物,当事人:已经联系礼物还未寄到

现代快报
2025-09-14 15:13:20
重磅消息!七国集团财政部长考虑对俄罗斯支持者征收关税!

重磅消息!七国集团财政部长考虑对俄罗斯支持者征收关税!

翻开历史和现实
2025-09-14 16:10:21
新华社权威快报|青海黄河源区确认发现秦代刻石

新华社权威快报|青海黄河源区确认发现秦代刻石

新华社
2025-09-15 10:14:04
养老变被啃老!40岁魔笛暴力抽射+狂奔怒吼 8.6分全场最高+斩MVP

养老变被啃老!40岁魔笛暴力抽射+狂奔怒吼 8.6分全场最高+斩MVP

风过乡
2025-09-15 06:58:34
“西贝”风波要完结了?杭州部分门店客流受明显影响,也有老客赶来支持

“西贝”风波要完结了?杭州部分门店客流受明显影响,也有老客赶来支持

极目新闻
2025-09-15 08:40:47
媒体人:吴艳妮“亚洲第一”彻底沦为营销,她被日本选手全面压制

媒体人:吴艳妮“亚洲第一”彻底沦为营销,她被日本选手全面压制

直播吧
2025-09-14 17:03:06
某企业别装死了,赶紧出来说句话吧

某企业别装死了,赶紧出来说句话吧

地球公民金建国
2025-09-14 13:58:48
中美密谈6小时,美财长眉头紧锁,连退两步,特朗普“承认不行”

中美密谈6小时,美财长眉头紧锁,连退两步,特朗普“承认不行”

八斗小先生
2025-09-15 09:28:28
赢麻了!订单根本做不完!深圳一工厂介绍新人入职奖励3000元一人

赢麻了!订单根本做不完!深圳一工厂介绍新人入职奖励3000元一人

明月杂谈
2025-09-14 07:46:06
乾隆写给英国国王的信,全文976字愚昧无比,今藏于大英博物馆

乾隆写给英国国王的信,全文976字愚昧无比,今藏于大英博物馆

诗词中国
2025-09-14 14:20:54
河南一邪教头目自封“玉皇大帝”:奸淫妇女10人,敛财超500万元

河南一邪教头目自封“玉皇大帝”:奸淫妇女10人,敛财超500万元

界面新闻
2025-09-15 08:37:27
西贝背后的隐藏BOSS

西贝背后的隐藏BOSS

城市局
2025-09-15 09:13:29
广西一原县委书记被绑架案调查:冒充执法人员带走受害人,“昌爷”被判18年,其弟、妹、妻均涉案 |红星调查

广西一原县委书记被绑架案调查:冒充执法人员带走受害人,“昌爷”被判18年,其弟、妹、妻均涉案 |红星调查

红星新闻
2025-09-15 11:39:56
“预制菜之王萨莉亚为啥没人骂”冲上热搜!网友:它都不嫌我穷

“预制菜之王萨莉亚为啥没人骂”冲上热搜!网友:它都不嫌我穷

狐狸先森讲升学规划
2025-09-14 20:43:21
曼联0-3完败曼城,验出头号水货!詹俊点评一针见血,1人耽误全队

曼联0-3完败曼城,验出头号水货!詹俊点评一针见血,1人耽误全队

球场没跑道
2025-09-15 09:10:48
2025-09-15 13:11:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
64290文章数 69814关注度
往期回顾 全部

科技要闻

发布会再提乔布斯,苹果高调回归设计初心

头条要闻

广西一原县委书记被绑架:凶手冒充执法人员带走受害人

头条要闻

广西一原县委书记被绑架:凶手冒充执法人员带走受害人

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

知名男演员官宣三胎

财经要闻

“预制菜大战”100小时

汽车要闻

保时捷新款911 Turbo S,双涡轮混动,售272.8万起

态度原创

时尚
家居
房产
教育
公开课

事实证明,中年女人穿衣掌握好这3个技巧,优雅感挡都挡不住

家居要闻

典雅大气 舒适中带童趣

房产要闻

海口房价,突然止跌!

教育要闻

当孩子不尊重你和你顶嘴时,不要发脾气、讲道理,请记住这4句话

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版