网易首页 > 网易号 > 正文 申请入驻

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测



于是,眼尖的网友开始“虾仁猪心”地盘OpenAI的核心逻辑:

GPT-5表现不好➔不是模型拉垮➔是现有测试基准出了问题➔GPT-5幻觉少刷不上分➔所以应该重新设定指标。(完美闭环)

  • 您不会是为了给GPT-5挽尊,所以想找个新基准吧?



所以,这究竟是OpenAI为了GPT-5这口醋才包的饺子,还是说真的揭开了大模型幻觉背后的更深层问题?

要回答这个问题,得先看这篇论文到底说了什么。

OpenAI重新定义“幻觉”

在论文中,OpenAI将幻觉定义成:语言模型生成的看似合理却错误的答案。

例如,当你问一个聊天机器人:“Adam Tauman Kalai的博士论文题目是什么?”它可能自信满满地给出三个完全不同的答案——但没有一个是正确的。

再比如,你问它某人的生日,它也可能报出三个不同日期,全都错得离谱。

通俗点说,就是模型看起来很有底气,但实际上在“瞎蒙”。

这种一本正经的胡说八道不光体现在复杂问题上,也发生在简单的问题上。



而就像开头提到的,GPT-5虽然在推理上幻觉更少,但仍无法彻底消除。

而无法消除的原因就是当前的评估方法设置了错误的激励机制。

具体来说,当前评估方法普遍以“准确率”为唯一指标,鼓励模型“大胆猜测”而不是诚实地说“我不知道”。

这就像选择题考试里,瞎蒙可能得分,留空必然为零。

长久以来,这种类似选择题考试的排行榜就驱动模型学会了“自信地错”。



而老实的GPT-5就由于不够“自信”,在各大榜单上表现不佳。所以,我们要(换个榜单!)

此外,当我们回顾语言模型的训练时,就可以发现,语言模型的预训练目标是预测下一个词,但没有“真/假”标签来区分正确与错误事实。

因此,模型只能看到流畅语言的正例,并近似这些语言数据的整体分布。

所以,对于语言模型来说,拼写等规律性强的模式可以学会,但低频、随机的事实(如生日)却无法仅靠预测获得,因而幻觉在所难免。

最后,OpenAI 提出要更新评估机制:错误应比“放弃作答”受到更大惩罚,恰当的“不确定表达”应获得部分分数。

而这一更新的范围不光是小范围的测试,而应该是一切被广泛使用、基于准确率的评估方式。

论文一经发布,就立刻引起了网友们的广泛讨论。

当我们谈论幻觉时,我们在在谈论什么?

除了我们最开头的“动机论”,网友们主要关注以下三个方向:

  • 幻觉是否普遍——大语言模型生成的内容是否全都是幻觉;
  • 幻觉产生的原因——包括模型的“做题策略”、语言知识的局限性,以及统计学习方法的内在缺陷;
  • 幻觉的应用与应对——例如在创意写作中如何利用幻觉,以及当模型总是回答“不知道”时该怎么办。

接下来,让我们具体来看。

大模型生成的内容是否都是幻觉?

对于模型的幻觉问题,有网友提出了相当激进的观点:

  • 大语言模型的所有输出都是幻觉,只不过其中一些幻觉是真实的。



这一观点涉及到了大语言模型的核心:大语言模型能知道、理解、明白它所输出的东西吗

对此,有网友表示,如果过于形而上,我们无法讨论具体工程意义上的问题。

这就是说,虽然模型只是在预测下一个token——但这并不意味着所有输出都是幻觉。

如果真是这样,那么这个术语就毫无意义了,而且它忽略了一个事实:由于规模、训练和微调,有些模型产生的幻觉比其他模型少得多。



模型的做题策略

针对大模型的“投机蒙题技巧”,有网友做了分析。



大模型本质上是基于概率分布做“词语接龙”,所以我们往往用答题的准确率来近似衡量模型的表现。

在选择下一个概率token时,如果模型不知道答案,但随便猜一下,就可能碰巧答对;

而如果选择不答,就一定得零分。于是,模型就被“鼓励”去猜,而不是说“我不知道”。

语言知识的局限性

此外,还有网友把讨论延伸到了语言本身的局限性上,讨论相当哲学。

首先,语言并不等于真理。所以,想完全消除LLM “不真实”的输出,本身就有点奇怪。



其次,是关于“真值”的问题。在计算机科学里,“一致性”常被用作判断真假的指标——只要输出符合系统已有的真值,就算是真,即便它可能违背“常识”。



而确定一个陈述究竟是真是假,或者它是否超出了系统的知识范围,是机器智能中的老大难问题,涉及知识图谱等整个子领域,这根本不是 LLM 最初要解决的目标。

大语言模型本质上是文本生成器,它非常擅长根据提示和从训练语料中学到的模式撰写“读书报告”,但要逐条分析报告中的每一句话,判断其真假或未知性,则完全是另一回事。

这个问题在人工智能领域已经研究了60年,因此指望在下个季度就把它彻底解决并整合到GPT-5中,未免有些自不量力。

最后,则涉及到知识的流动性。

由于知识并非是一个线性增长的累积过程,而是一个不断质疑,挑战,更新的过程。就像哥白尼挑战地心说,而后来的天文学又更新日心说一样,知识自身就在不停地流动。



所以,既然大语言模型的数据输入就是固定的,你怎么能指望它一直对呢?

不过,有网友指出这样说很蠢,因为在人工智能领域没有人企图从哲学层面消除幻觉,人们只是在努力降低错误率,因为这会让模型更有用。



统计模型的局限性

还有网友指出,我们用“幻觉”一词描述模型的错误,本身就带有拟人的倾向。



如果停止拟人化,让它回到它本来的本质——一个预测模型——那么预测出错也就不是什么意外结果了。

因为,大语言模型预测的是在给定上下文下最可能出现的词,它们可能预测错误,而当预测错误时,人们就说它“产生了幻觉”。

没有人会质疑天气预测模型为什么不能百分百准确,因为预测本身就可能出错,这是可以理解的。

营销和宣传试图把LLM包装成“逻辑理性的思考者”,等同于人类的思维。但人类在真正思考时知道自己什么时候在“编造”。如果一个人真心相信明显错误的事情,那通常是因为他们在产生幻觉。他们的思维本身并没有错,只是失去了现实的支撑。

不过,也有网友提出了相反意见:语言和预测天气的物理模型就不是一回事,由于文本本身就已经编码了数学、代码和推理,所以将其输出视为“仅仅预测单词”忽略了一个事实,即单词分布编码了信息丰富的知识表示。



这又引出了一个新的问题——我们应该如何看待预测单词呢?

幻觉的应用与应对

抛开上面哲学的讨论,不少网友也提出了不少实际的问题。

例如,当我需要模型有“幻觉”帮我写作的时候,他不发散了怎么办?



对此,有网友表示,即使是虚构,也需要一定程度的一致性和连贯性。

比如,如果我要求大语言模型生成一个以中世纪法国为背景的虚构故事,它回应的是一个以中世纪法国为背景的虚构故事,那么这就是对我赋予它的任务的恰当(“正确”)的回应。

但如果它回应的是一个以中世纪英格兰为背景的故事,那就不正确了。



因此,这里的幻觉是不符合虚构设定的输出,而非相对于现实的“幻觉”。

最后,有网友直接发出灵魂拷问:要这么一来,假如模型为了保底,一直拿不回答的奖励,一直说不知道怎么办?



而且对于大多数人来说,相比听到一句不知道,可能更想听到一个看似合理的答案。

所以,你会更希望AI自信地乱答,还是老老实实地说我不知道?

[1]https://openai.com/index/why-language-models-hallucinate/

[2]https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

[3]https://news.ycombinator.com/item?id=45147385

[4]https://www.reddit.com/r/singularity/comments/1n9fued/new_research_from_openai_why_language_models/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际油价大跌

国际油价大跌

第一财经资讯
2026-02-02 09:28:11
她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

阿胡
2026-01-21 17:34:15
闫学晶凉了!儿子新疆班再实锤,疑被顶替考生发声,舆论反扑中戏

闫学晶凉了!儿子新疆班再实锤,疑被顶替考生发声,舆论反扑中戏

李健政观察
2026-02-02 12:23:28
爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

足球狗说
2026-02-02 00:19:11
要输给姆巴佩了?姆巴佩少用近70场情况下 就超了大罗生涯总进球

要输给姆巴佩了?姆巴佩少用近70场情况下 就超了大罗生涯总进球

体坛八点半的那些事儿
2026-02-02 17:30:12
特斯拉:第三代特斯拉人形机器人即将亮相,预计年产百万台

特斯拉:第三代特斯拉人形机器人即将亮相,预计年产百万台

界面新闻
2026-02-02 12:13:55
全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

西楼知趣杂谈
2026-01-31 13:18:43
20年来首次动刀!带薪年假或增至10天起,条例修订只是个开始?

20年来首次动刀!带薪年假或增至10天起,条例修订只是个开始?

boss外传
2026-02-01 18:00:03
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
“谁还敢用你?”211女硕士被体制内劝退,网友看清现实:自找的

“谁还敢用你?”211女硕士被体制内劝退,网友看清现实:自找的

妍妍教育日记
2025-12-26 18:10:09
大S纪念雕像揭幕,周渝民、言承旭等好友到场,孩子未出席。

大S纪念雕像揭幕,周渝民、言承旭等好友到场,孩子未出席。

话娱论影
2026-02-02 14:52:46
4连胜难保帅位,张庆鹏下课倒计时?曝接班人浮出水面,会是他?

4连胜难保帅位,张庆鹏下课倒计时?曝接班人浮出水面,会是他?

萌兰聊个球
2026-02-02 13:20:13
畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

小椰的奶奶
2026-02-02 00:10:15
普京对美国发出通牒后,不到24小时,特朗普让步,美国人要心碎了

普京对美国发出通牒后,不到24小时,特朗普让步,美国人要心碎了

现代小青青慕慕
2026-02-02 14:31:28
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
央媒怒批、坑害老百姓!臭名昭著的几个相声演员,各个难以原谅

央媒怒批、坑害老百姓!臭名昭著的几个相声演员,各个难以原谅

无力的滋味
2026-02-01 11:32:33
对张庆鹏竖中指?沈梓捷情绪失控一路怒喷 北控或已失控

对张庆鹏竖中指?沈梓捷情绪失控一路怒喷 北控或已失控

大嘴爵爷侃球
2026-02-02 09:31:34
江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

法老不说教
2026-01-16 23:26:38
眼见日军战俘无食可吃,曾克林调拨55头牛羊接济,竟换回26架整备完好的飞机

眼见日军战俘无食可吃,曾克林调拨55头牛羊接济,竟换回26架整备完好的飞机

史海孤雁
2026-01-30 17:34:13
现货白银日内跌幅扩大至10%,报76.89美元/盎司

现货白银日内跌幅扩大至10%,报76.89美元/盎司

每日经济新闻
2026-02-02 07:26:07
2026-02-02 18:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12099文章数 176368关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

教育
游戏
本地
时尚
公开课

教育要闻

养孩子要花68万?教育降级的风来了,聪明的家长这样“精准养娃”

《HighGuard》试玩:它正于争议旋涡中稳步向前

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版