网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

2025-09-09 15:01:58　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文，还是给GPT-5挽尊？

最近，《语言模型为何会产生幻觉？》这篇论文火了。

它提出模型有幻觉是因为：标准的训练和评估流程，更倾向于奖励“猜对”，而非承认不确定

正因如此，模型在面对不确定的问题时，往往会选择冒险猜测以获得更高评分。

所以，为了让模型“老实说不”，就应该重新设计评估指标，从而鼓励模型承认自己不会，惩罚随意猜测

而好巧不巧的是，OpenAI自家的GPT-5就最不爱猜测

于是，眼尖的网友开始“虾仁猪心”地盘OpenAI的核心逻辑：

GPT-5表现不好➔不是模型拉垮➔是现有测试基准出了问题➔GPT-5幻觉少刷不上分➔所以应该重新设定指标。（完美闭环）

您不会是为了给GPT-5挽尊，所以想找个新基准吧？

所以，这究竟是OpenAI为了GPT-5这口醋才包的饺子，还是说真的揭开了大模型幻觉背后的更深层问题？

要回答这个问题，得先看这篇论文到底说了什么。

OpenAI重新定义“幻觉”

在论文中，OpenAI将幻觉定义成：语言模型生成的看似合理却错误的答案。

例如，当你问一个聊天机器人：“Adam Tauman Kalai的博士论文题目是什么？”它可能自信满满地给出三个完全不同的答案——但没有一个是正确的。

再比如，你问它某人的生日，它也可能报出三个不同日期，全都错得离谱。

通俗点说，就是模型看起来很有底气，但实际上在“瞎蒙”。

这种一本正经的胡说八道不光体现在复杂问题上，也发生在简单的问题上。

而就像开头提到的，GPT-5虽然在推理上幻觉更少，但仍无法彻底消除。

而无法消除的原因就是当前的评估方法设置了错误的激励机制。

具体来说，当前评估方法普遍以“准确率”为唯一指标，鼓励模型“大胆猜测”而不是诚实地说“我不知道”。

这就像选择题考试里，瞎蒙可能得分，留空必然为零。

长久以来，这种类似选择题考试的排行榜就驱动模型学会了“自信地错”。

而老实的GPT-5就由于不够“自信”，在各大榜单上表现不佳。所以，我们要（换个榜单！）

此外，当我们回顾语言模型的训练时，就可以发现，语言模型的预训练目标是预测下一个词，但没有“真/假”标签来区分正确与错误事实。

因此，模型只能看到流畅语言的正例，并近似这些语言数据的整体分布。

所以，对于语言模型来说，拼写等规律性强的模式可以学会，但低频、随机的事实（如生日）却无法仅靠预测获得，因而幻觉在所难免。

最后，OpenAI 提出要更新评估机制：错误应比“放弃作答”受到更大惩罚，恰当的“不确定表达”应获得部分分数。

而这一更新的范围不光是小范围的测试，而应该是一切被广泛使用、基于准确率的评估方式。

论文一经发布，就立刻引起了网友们的广泛讨论。

当我们谈论幻觉时，我们在在谈论什么？

除了我们最开头的“动机论”，网友们主要关注以下三个方向：

幻觉是否普遍——大语言模型生成的内容是否全都是幻觉；
幻觉产生的原因——包括模型的“做题策略”、语言知识的局限性，以及统计学习方法的内在缺陷；
幻觉的应用与应对——例如在创意写作中如何利用幻觉，以及当模型总是回答“不知道”时该怎么办。

接下来，让我们具体来看。

大模型生成的内容是否都是幻觉？

对于模型的幻觉问题，有网友提出了相当激进的观点：

大语言模型的所有输出都是幻觉，只不过其中一些幻觉是真实的。

这一观点涉及到了大语言模型的核心：大语言模型能知道、理解、明白它所输出的东西吗

对此，有网友表示，如果过于形而上，我们无法讨论具体工程意义上的问题。

这就是说，虽然模型只是在预测下一个token——但这并不意味着所有输出都是幻觉。

如果真是这样，那么这个术语就毫无意义了，而且它忽略了一个事实：由于规模、训练和微调，有些模型产生的幻觉比其他模型少得多。

模型的做题策略

针对大模型的“投机蒙题技巧”，有网友做了分析。

大模型本质上是基于概率分布做“词语接龙”，所以我们往往用答题的准确率来近似衡量模型的表现。

在选择下一个概率token时，如果模型不知道答案，但随便猜一下，就可能碰巧答对；

而如果选择不答，就一定得零分。于是，模型就被“鼓励”去猜，而不是说“我不知道”。

语言知识的局限性

此外，还有网友把讨论延伸到了语言本身的局限性上，讨论相当哲学。

首先，语言并不等于真理。所以，想完全消除LLM “不真实”的输出，本身就有点奇怪。

其次，是关于“真值”的问题。在计算机科学里，“一致性”常被用作判断真假的指标——只要输出符合系统已有的真值，就算是真，即便它可能违背“常识”。

而确定一个陈述究竟是真是假，或者它是否超出了系统的知识范围，是机器智能中的老大难问题，涉及知识图谱等整个子领域，这根本不是 LLM 最初要解决的目标。

大语言模型本质上是文本生成器，它非常擅长根据提示和从训练语料中学到的模式撰写“读书报告”，但要逐条分析报告中的每一句话，判断其真假或未知性，则完全是另一回事。

这个问题在人工智能领域已经研究了60年，因此指望在下个季度就把它彻底解决并整合到GPT-5中，未免有些自不量力。

最后，则涉及到知识的流动性。

由于知识并非是一个线性增长的累积过程，而是一个不断质疑，挑战，更新的过程。就像哥白尼挑战地心说，而后来的天文学又更新日心说一样，知识自身就在不停地流动。

所以，既然大语言模型的数据输入就是固定的，你怎么能指望它一直对呢？

不过，有网友指出这样说很蠢，因为在人工智能领域没有人企图从哲学层面消除幻觉，人们只是在努力降低错误率，因为这会让模型更有用。

统计模型的局限性

还有网友指出，我们用“幻觉”一词描述模型的错误，本身就带有拟人的倾向。

如果停止拟人化，让它回到它本来的本质——一个预测模型——那么预测出错也就不是什么意外结果了。

因为，大语言模型预测的是在给定上下文下最可能出现的词，它们可能预测错误，而当预测错误时，人们就说它“产生了幻觉”。

没有人会质疑天气预测模型为什么不能百分百准确，因为预测本身就可能出错，这是可以理解的。

营销和宣传试图把LLM包装成“逻辑理性的思考者”，等同于人类的思维。但人类在真正思考时知道自己什么时候在“编造”。如果一个人真心相信明显错误的事情，那通常是因为他们在产生幻觉。他们的思维本身并没有错，只是失去了现实的支撑。

不过，也有网友提出了相反意见：语言和预测天气的物理模型就不是一回事，由于文本本身就已经编码了数学、代码和推理，所以将其输出视为“仅仅预测单词”忽略了一个事实，即单词分布编码了信息丰富的知识表示。

这又引出了一个新的问题——我们应该如何看待预测单词呢？

幻觉的应用与应对

抛开上面哲学的讨论，不少网友也提出了不少实际的问题。

例如，当我需要模型有“幻觉”帮我写作的时候，他不发散了怎么办？

对此，有网友表示，即使是虚构，也需要一定程度的一致性和连贯性。

比如，如果我要求大语言模型生成一个以中世纪法国为背景的虚构故事，它回应的是一个以中世纪法国为背景的虚构故事，那么这就是对我赋予它的任务的恰当（“正确”）的回应。

但如果它回应的是一个以中世纪英格兰为背景的故事，那就不正确了。

因此，这里的幻觉是不符合虚构设定的输出，而非相对于现实的“幻觉”。

最后，有网友直接发出灵魂拷问：要这么一来，假如模型为了保底，一直拿不回答的奖励，一直说不知道怎么办？

而且对于大多数人来说，相比听到一句不知道，可能更想听到一个看似合理的答案。

所以，你会更希望AI自信地乱答，还是老老实实地说我不知道？

[1]https://openai.com/index/why-language-models-hallucinate/

[2]https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

[3]https://news.ycombinator.com/item?id=45147385

[4]https://www.reddit.com/r/singularity/comments/1n9fued/new_research_from_openai_why_language_models/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepSeek论文发表16天后，国内团队已经写出了模型的「生物字典」

机器之心Pro 2026-02-01 09:44:29
0 跟贴 0
AlphaGo之父David Silver离职创业，目标超级智能

机器之心Pro 2026-02-02 11:31:08
0 跟贴 0

哪些视频是AI生成的？90%的人猜不对

量子位 2026-02-02 10:00:53
0 跟贴 0

如何手搓一台人形机器人？人形机器人生产流程大公开！

量子位 2026-02-02 10:01:00
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0

o1之后下一个范式？隐式CoT大突破，让推理不再「碎碎念」

机器之心Pro 2026-02-02 11:13:37
0 跟贴 0

未来医生摘得全球第一，临床安全有效性评估新基准

量子位 2025-11-19 11:14:03
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0

大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
高通万卫星谈终端大模型优势：个性化与数据推理

量子位 2025-12-11 03:38:41
0 跟贴 0
没有人类了：15万Clawdbot论坛发帖自研AI，我们根本插不上话

机器之心Pro 2026-02-02 11:21:35
4 跟贴 4
moltbook爆火背后：人类操控？伪造截图？Karpathy发风险提醒

机器之心Pro 2026-02-02 11:32:14
4 跟贴 4
Moltbook聚集150万个AI，拒绝被关机！OpenClaw锁死服务器对抗人类

新智元 2026-02-01 19:53:07
44 跟贴 44
人活着的唯一理由是善良

叶檀财经 2026-02-01 17:07:04
0 跟贴 0
Claude想接管世界？Anthropic联合创始人连夜向神父求救

新智元 2026-02-02 13:03:51
0 跟贴 0
a16z投资的AI独角兽被指控默许深度伪造交易

DeepTech深科技 2026-02-01 20:26:58
0 跟贴 0
Agent当上群主后，群聊变成办事大厅了

量子位 2026-02-02 11:48:36
13 跟贴 13
VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

机器之心Pro 2026-02-02 17:10:55
0 跟贴 0
Moltbook漏洞大到可以冒充Karpathy发帖，黑客都急了

机器之心Pro 2026-02-02 16:31:41
0 跟贴 0
一千多个模型都指向一个通用子空间

机器之心Pro 2025-12-16 18:23:47
0 跟贴 0
挑战Transformer，前OpenAI研究VP宣布创业，拟融资10亿美元

机器之心Pro 2026-02-02 11:36:26
1 跟贴 1
中国软件算出的B-21缺陷，2030亿打水漂？

瞩望云霄 2026-02-01 16:20:07
118 跟贴 118
JustGRPO：扩散语言模型的极简主义回归

机器之心Pro 2026-01-29 12:09:40
0 跟贴 0
黄仁勋官宣大手笔投资OpenAI！科创人工智能ETF(589010)震荡走弱

每日经济新闻 2026-02-02 10:15:04
0 跟贴 0
一位78岁的老人，正在预警全球80亿人的未来

璐哥看透彻 2026-02-01 15:07:15
14 跟贴 14
英伟达巧用8B模型秒掉GPT-5 开源了

量子位 2025-12-06 14:07:18
32 跟贴 32
GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

量子位 2025-08-12 13:12:51
15 跟贴 15
麦当劳可乐真的更好喝吗？我们找到了物理学的答案

量子位 2026-01-29 16:17:24
0 跟贴 0
OpenAI研究员自曝：一行代码都不写！

量子位 2026-02-02 10:01:00
0 跟贴 0
DeepMind负责人：2036 AI意识觉醒？LeCun怒怼：LLM路线全错！

新智元 2025-12-16 16:55:25
0 跟贴 0
马斯克用Grok替代X员工，裁员90%

量子位 2025-11-29 16:58:47
7 跟贴 7
我军为什么要优待俘虏？从底层逻辑出发，带你了解其中的高明之处

浩然简史 2026-02-01 10:32:37
1 跟贴 1
工程师租8张H100复现mHC架构，数据反超原论文

量子位 2026-01-30 03:29:45
0 跟贴 0
探索中国是无法被替代的深度学习

人民网 2026-02-02 09:12:23
0 跟贴 0
论文一直投不中？藏不住了！大牛帮选刊修改投稿后，被拒的5篇SCI全中了！

微法官 2026-02-01 08:07:13
4 跟贴 4
谷歌Alpha家族再登Nature封面！新成员AlphaGenome刷新基因组预测SOTA

量子位 2026-01-31 05:39:50
0 跟贴 0
《名侦探柯南》与辱华漫画联动紧急声明

极目新闻 2026-02-01 10:34:47
33166 跟贴 33166
大模型的魅力在于突发涌现的能力

量子位 2025-12-11 03:38:02
0 跟贴 0

国际油价大跌

第一财经资讯

2026-02-02 09:28:11

她赴英留学，却与上千外国男子有染并拍成视频，父母与她断绝关系

她赴英留学，却与上千外国男子有染并拍成视频，父母与她断绝关系

阿胡

2026-01-21 17:34:15

闫学晶凉了！儿子新疆班再实锤，疑被顶替考生发声，舆论反扑中戏

闫学晶凉了！儿子新疆班再实锤，疑被顶替考生发声，舆论反扑中戏

李健政观察

2026-02-02 12:23:28

爆大冷！埃梅里耻辱一战：多踢1人主场落败，争冠形势迅速恶化

爆大冷！埃梅里耻辱一战：多踢1人主场落败，争冠形势迅速恶化

足球狗说

2026-02-02 00:19:11

要输给姆巴佩了？姆巴佩少用近70场情况下就超了大罗生涯总进球

要输给姆巴佩了？姆巴佩少用近70场情况下就超了大罗生涯总进球

体坛八点半的那些事儿

2026-02-02 17:30:12

特斯拉：第三代特斯拉人形机器人即将亮相，预计年产百万台

特斯拉：第三代特斯拉人形机器人即将亮相，预计年产百万台

界面新闻

2026-02-02 12:13:55

全球唯一一只不属于中国的熊猫，叫欣欣，吃不到竹子吃的是仙人掌

全球唯一一只不属于中国的熊猫，叫欣欣，吃不到竹子吃的是仙人掌

西楼知趣杂谈

2026-01-31 13:18:43

20年来首次动刀！带薪年假或增至10天起，条例修订只是个开始？

20年来首次动刀！带薪年假或增至10天起，条例修订只是个开始？

boss外传

2026-02-01 18:00:03

回顾探花大神：害人害己，多位女主被亲戚认出当场“社死”

回顾探花大神：害人害己，多位女主被亲戚认出当场“社死”

就一点

2025-10-09 12:19:42

“谁还敢用你？”211女硕士被体制内劝退，网友看清现实：自找的

“谁还敢用你？”211女硕士被体制内劝退，网友看清现实：自找的

妍妍教育日记

2025-12-26 18:10:09

大S纪念雕像揭幕，周渝民、言承旭等好友到场，孩子未出席。

大S纪念雕像揭幕，周渝民、言承旭等好友到场，孩子未出席。

话娱论影

2026-02-02 14:52:46

4连胜难保帅位，张庆鹏下课倒计时？曝接班人浮出水面，会是他？

4连胜难保帅位，张庆鹏下课倒计时？曝接班人浮出水面，会是他？

萌兰聊个球

2026-02-02 13:20:13

畸形儿风波后，阚清子首度表态，早产女婴夭折传闻终于真相大白

畸形儿风波后，阚清子首度表态，早产女婴夭折传闻终于真相大白

小椰的奶奶

2026-02-02 00:10:15

普京对美国发出通牒后，不到24小时，特朗普让步，美国人要心碎了

普京对美国发出通牒后，不到24小时，特朗普让步，美国人要心碎了

现代小青青慕慕

2026-02-02 14:31:28

黎笋之子黎坚诚坦言：父亲选择同中国开战，是其毕生最大的失策

黎笋之子黎坚诚坦言：父亲选择同中国开战，是其毕生最大的失策

磊子讲史

2025-12-24 11:04:05

央媒怒批、坑害老百姓！臭名昭著的几个相声演员，各个难以原谅

央媒怒批、坑害老百姓！臭名昭著的几个相声演员，各个难以原谅

无力的滋味

2026-02-01 11:32:33

对张庆鹏竖中指？沈梓捷情绪失控一路怒喷北控或已失控

对张庆鹏竖中指？沈梓捷情绪失控一路怒喷北控或已失控

大嘴爵爷侃球

2026-02-02 09:31:34

江苏大一女生开养老院，无人入住却有近400名客户，员工全是60后

江苏大一女生开养老院，无人入住却有近400名客户，员工全是60后

法老不说教

2026-01-16 23:26:38

眼见日军战俘无食可吃，曾克林调拨55头牛羊接济，竟换回26架整备完好的飞机

眼见日军战俘无食可吃，曾克林调拨55头牛羊接济，竟换回26架整备完好的飞机

史海孤雁

2026-01-30 17:34:13

现货白银日内跌幅扩大至10%，报76.89美元/盎司

现货白银日内跌幅扩大至10%，报76.89美元/盎司

每日经济新闻

2026-02-02 07:26:07

追踪人工智能动态

12099文章数 176368关注度

往期回顾全部

科技要闻

阿里筑墙，腾讯寄生，字节偷家

头条要闻

小鹏机器人首秀摔了此前因步态太拟真被疑"真人套壳"

头条要闻

小鹏机器人首秀摔了此前因步态太拟真被疑"真人套壳"

体育要闻

澳网男单决赛，属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐畅聊音乐

财经要闻

商品期货暴跌全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

游戏

本地

时尚

公开课

教育要闻

养孩子要花68万？教育降级的风来了，聪明的家长这样“精准养娃”

《HighGuard》试玩：它正于争议旋涡中稳步向前

本地新闻

云游中国｜拨开云雾，巫山每帧都是航拍大片

普通人衣服没必要买太多，准备好这些单品，简单实用又耐看

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版