网易首页 > 网易号 > 正文 申请入驻

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。

所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

于是,眼尖的网友开始“虾仁猪心”地盘OpenAI的核心逻辑:

GPT-5表现不好➔不是模型拉垮➔是现有测试基准出了问题➔GPT-5幻觉少刷不上分➔所以应该重新设定指标。(完美闭环)

  • 您不会是为了给GPT-5挽尊,所以想找个新基准吧?

所以,这究竟是OpenAI为了GPT-5这口醋才包的饺子,还是说真的揭开了大模型幻觉背后的更深层问题?

要回答这个问题,得先看这篇论文到底说了什么。

OpenAI重新定义“幻觉”

在论文中,OpenAI将幻觉定义成:语言模型生成的看似合理却错误的答案。

例如,当你问一个聊天机器人:“Adam Tauman Kalai的博士论文题目是什么?”它可能自信满满地给出三个完全不同的答案——但没有一个是正确的。

再比如,你问它某人的生日,它也可能报出三个不同日期,全都错得离谱。

通俗点说,就是模型看起来很有底气,但实际上在“瞎蒙”。

这种一本正经的胡说八道不光体现在复杂问题上,也发生在简单的问题上。

而就像开头提到的,GPT-5虽然在推理上幻觉更少,但仍无法彻底消除。

而无法消除的原因就是当前的评估方法设置了错误的激励机制。

具体来说,当前评估方法普遍以“准确率”为唯一指标,鼓励模型“大胆猜测”而不是诚实地说“我不知道”。

这就像选择题考试里,瞎蒙可能得分,留空必然为零。

长久以来,这种类似选择题考试的排行榜就驱动模型学会了“自信地错”。

而老实的GPT-5就由于不够“自信”,在各大榜单上表现不佳。所以,我们要(换个榜单!)

此外,当我们回顾语言模型的训练时,就可以发现,语言模型的预训练目标是预测下一个词,但没有“真/假”标签来区分正确与错误事实。

因此,模型只能看到流畅语言的正例,并近似这些语言数据的整体分布。

所以,对于语言模型来说,拼写等规律性强的模式可以学会,但低频、随机的事实(如生日)却无法仅靠预测获得,因而幻觉在所难免。

最后,OpenAI 提出要更新评估机制:错误应比“放弃作答”受到更大惩罚,恰当的“不确定表达”应获得部分分数。

而这一更新的范围不光是小范围的测试,而应该是一切被广泛使用、基于准确率的评估方式。

论文一经发布,就立刻引起了网友们的广泛讨论。

当我们谈论幻觉时,我们在在谈论什么?

除了我们最开头的“动机论”,网友们主要关注以下三个方向:

  • 幻觉是否普遍——大语言模型生成的内容是否全都是幻觉;
  • 幻觉产生的原因——包括模型的“做题策略”、语言知识的局限性,以及统计学习方法的内在缺陷;
  • 幻觉的应用与应对——例如在创意写作中如何利用幻觉,以及当模型总是回答“不知道”时该怎么办。

接下来,让我们具体来看。

大模型生成的内容是否都是幻觉?

对于模型的幻觉问题,有网友提出了相当激进的观点:

  • 大语言模型的所有输出都是幻觉,只不过其中一些幻觉是真实的。

这一观点涉及到了大语言模型的核心:大语言模型能知道、理解、明白它所输出的东西吗

对此,有网友表示,如果过于形而上,我们无法讨论具体工程意义上的问题。

这就是说,虽然模型只是在预测下一个token——但这并不意味着所有输出都是幻觉。

如果真是这样,那么这个术语就毫无意义了,而且它忽略了一个事实:由于规模、训练和微调,有些模型产生的幻觉比其他模型少得多。

模型的做题策略

针对大模型的“投机蒙题技巧”,有网友做了分析。

大模型本质上是基于概率分布做“词语接龙”,所以我们往往用答题的准确率来近似衡量模型的表现。

在选择下一个概率token时,如果模型不知道答案,但随便猜一下,就可能碰巧答对;

而如果选择不答,就一定得零分。于是,模型就被“鼓励”去猜,而不是说“我不知道”。

语言知识的局限性

此外,还有网友把讨论延伸到了语言本身的局限性上,讨论相当哲学。

首先,语言并不等于真理。所以,想完全消除LLM “不真实”的输出,本身就有点奇怪。

其次,是关于“真值”的问题。在计算机科学里,“一致性”常被用作判断真假的指标——只要输出符合系统已有的真值,就算是真,即便它可能违背“常识”。

而确定一个陈述究竟是真是假,或者它是否超出了系统的知识范围,是机器智能中的老大难问题,涉及知识图谱等整个子领域,这根本不是 LLM 最初要解决的目标。

大语言模型本质上是文本生成器,它非常擅长根据提示和从训练语料中学到的模式撰写“读书报告”,但要逐条分析报告中的每一句话,判断其真假或未知性,则完全是另一回事。

这个问题在人工智能领域已经研究了60年,因此指望在下个季度就把它彻底解决并整合到GPT-5中,未免有些自不量力。

最后,则涉及到知识的流动性。

由于知识并非是一个线性增长的累积过程,而是一个不断质疑,挑战,更新的过程。就像哥白尼挑战地心说,而后来的天文学又更新日心说一样,知识自身就在不停地流动。

所以,既然大语言模型的数据输入就是固定的,你怎么能指望它一直对呢?

不过,有网友指出这样说很蠢,因为在人工智能领域没有人企图从哲学层面消除幻觉,人们只是在努力降低错误率,因为这会让模型更有用。

统计模型的局限性

还有网友指出,我们用“幻觉”一词描述模型的错误,本身就带有拟人的倾向。

如果停止拟人化,让它回到它本来的本质——一个预测模型——那么预测出错也就不是什么意外结果了。

因为,大语言模型预测的是在给定上下文下最可能出现的词,它们可能预测错误,而当预测错误时,人们就说它“产生了幻觉”。

没有人会质疑天气预测模型为什么不能百分百准确,因为预测本身就可能出错,这是可以理解的。

营销和宣传试图把LLM包装成“逻辑理性的思考者”,等同于人类的思维。但人类在真正思考时知道自己什么时候在“编造”。如果一个人真心相信明显错误的事情,那通常是因为他们在产生幻觉。他们的思维本身并没有错,只是失去了现实的支撑。

不过,也有网友提出了相反意见:语言和预测天气的物理模型就不是一回事,由于文本本身就已经编码了数学、代码和推理,所以将其输出视为“仅仅预测单词”忽略了一个事实,即单词分布编码了信息丰富的知识表示。

这又引出了一个新的问题——我们应该如何看待预测单词呢?

幻觉的应用与应对

抛开上面哲学的讨论,不少网友也提出了不少实际的问题。

例如,当我需要模型有“幻觉”帮我写作的时候,他不发散了怎么办?

对此,有网友表示,即使是虚构,也需要一定程度的一致性和连贯性。

比如,如果我要求大语言模型生成一个以中世纪法国为背景的虚构故事,它回应的是一个以中世纪法国为背景的虚构故事,那么这就是对我赋予它的任务的恰当(“正确”)的回应。

但如果它回应的是一个以中世纪英格兰为背景的故事,那就不正确了。

因此,这里的幻觉是不符合虚构设定的输出,而非相对于现实的“幻觉”。

最后,有网友直接发出灵魂拷问:要这么一来,假如模型为了保底,一直拿不回答的奖励,一直说不知道怎么办?

而且对于大多数人来说,相比听到一句不知道,可能更想听到一个看似合理的答案。

所以,你会更希望AI自信地乱答,还是老老实实地说我不知道?

[1]https://openai.com/index/why-language-models-hallucinate/

[2]https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

[3]https://news.ycombinator.com/item?id=45147385

[4]https://www.reddit.com/r/singularity/comments/1n9fued/new_research_from_openai_why_language_models/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
特朗普警告伊朗在和平协议问题上“认真起来”

特朗普警告伊朗在和平协议问题上“认真起来”

界面新闻
2026-03-26 19:29:30
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
四川某设计院爆大瓜!

四川某设计院爆大瓜!

黯泉
2026-03-26 18:36:06
厦门一女子长期遭家暴离家不敢归,丈夫向法院申请宣告其死亡,十多年后决心离婚才知道自己“死了”!

厦门一女子长期遭家暴离家不敢归,丈夫向法院申请宣告其死亡,十多年后决心离婚才知道自己“死了”!

环球网资讯
2026-03-26 14:44:08
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
美国悬赏1000万美金,通缉一中国四川小伙,他到底做了什么?

美国悬赏1000万美金,通缉一中国四川小伙,他到底做了什么?

趣文说娱
2026-03-26 18:11:01
泰国征兵广告用张凌赫做海报:想像“武安侯”一样帅气骑马吗?今年四月报名参军 选择骑兵部队

泰国征兵广告用张凌赫做海报:想像“武安侯”一样帅气骑马吗?今年四月报名参军 选择骑兵部队

闪电新闻
2026-03-26 17:45:38
2026-03-26 20:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
游戏
房产
艺术
数码

家居要闻

傍海而居 静观蝴蝶海

10万奖池!2026 KKCS1.6 巅峰之路传奇联赛(春季赛)正式开赛!——KK官方对战平台

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

哪一座桥不是风景?

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

无障碍浏览 进入关怀版