网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

改掉幻觉=杀死AI？Science曝光大模型「先天死穴」

2025-11-09 11:21:12　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】《Science》的一篇新文章指出，大模型存在一个先天难解的软肋：幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」，虽然有助于减少模型幻觉，但可能因此影响用户留存与活跃度，动摇商业根本。

就在OpenAI完成重组，解除上市限制的当天，《Science》一篇热文曝出大模型的一个先天致命软肋，这一软肋导致大模型难以彻底摆脱幻觉。

文章指出，虽然OpenAI完成了期待已久的重组，但它的核心产品仍会出现幻觉。

以往我们经常将这种幻觉主要归因于训练数据质量，但这一解释并不充分。

上个月OpenAI与佐治亚理工学院的研究团队在一篇预印本论文中指出：

就像学生在考试遇到难题时会「蒙」答案一样，大模型在不确定的情况下也会倾向于「猜」，生成看似合理但其实错误的回答，而不是承认自己不知道。

论文：https://arxiv.org/abs/2509.04664《大模型为何会产生幻觉》

在不确定时选择「我不知道」，可显著降低幻觉，但为什么模型设计者们没有这么做？

研究人员认为问题主要出在大模型的训练和评估机制上：

在大模型的训练和评估过程中更倾向于「奖励猜测」，而不是「鼓励承认不确定性」。

但要改变这一点并不容易。

让大模型学会说「我不知道」，也可能动摇AI厂商的商业根基。

比如，有人就质疑OpenAI是否会真心让自家模型更重视「真实性」而不是「吸引力」。

这是一个极大的挑战。

如果ChatGPT经常回答「我不知道」，用户可能就会流失到竞争对手那里。

大模型幻觉为何难以根除？

「如果把幻觉彻底修好，将会杀死这个产品」。

谢菲尔德大学的AI研究员魏星曾发文称OpenAI的「反幻觉」方案会杀死ChatGPT。

OpenAI的研究人员认为幻觉并不神秘，他们分析了大模型在预训练阶段可能导致的错误，发现即使训练数据无误，预训练目标也可能使模型产生错误。

研究人员进一步指出，幻觉之所以在后续阶段持续存在，是因为主流评估体系的评分方式鼓励模型像学生考试一样去「猜」，而不是诚实地表达不确定性。

OpenAI曾探讨过幻觉难以根除的原因，认为其源头在于预训练的「下一个词预测」：模型通过学习海量文本，掌握如何根据统计规律预测下一个词。

但这种预测就像是囫囵吞枣，每个语句都没有通过「真/假」标签进行优化，当缺乏标记为错误的示例时，有效语句与无效语句的区分就显得尤为困难，因此会出现幻觉。

以图片识别举例，若数百万张猫狗照片被标注为「猫」或「狗」，算法便能可靠分类。

但如果改为按宠物生日标注照片，由于生日数据本质上随机，无论算法多么先进，此任务必然产生错误。

在语言模型的预训练中也存在类似机制。

比如拼写和括号遵循固定模式，因此随规模扩大错误会消失。

而像宠物生日这类任意低频事实无法仅凭模式预测，因此容易导致幻觉。

OpenAI澄清了几种关于模型「幻觉」的误解：

误解：提高准确率就能消除幻觉，因为100%准确的模型永远不会产生幻觉。

主张：准确率永远无法达到100%，因为无论模型规模、搜索能力或推理能力如何，某些现实世界的问题本质上无法解答。

误解：幻觉现象不可避免。

主张：并非如此，因为语言模型在不确定时可选择保持沉默。

误解：避免幻觉需要特定程度的智能，而这仅能通过大型模型实现。

主张：小型模型更易认知自身局限。例如面对毛利语问题时，不懂毛利语的小型模型可直接回应「我不知道」，而掌握部分毛利语的模型则需评估回答信心。

误解：幻觉是现代语言模型中神秘的故障现象。

主张：我们已理解幻觉产生的统计机制及其在评估中的奖励机制。

为什么大模型「刷榜」难杜绝？

OpenAI官方博客在介绍这篇论文时，将幻觉描述为「看似合理却错误的陈述」。

博客：https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

而且幻觉的出现具有不可预知性，它可能以出人意料的方式出现。

比如，你询问一篇论文的标题，它会自信地给出三个不同答案，但都是错误的。

该论文的合著者、OpenAI研究科学家Adam Kalai认为，虽然我们永远不可能做到100%准确，但这并不意味着模型必须要产生幻觉。

解决之道可以在「后训练」阶段，借助人类反馈和其他微调（fine-tuning）方法会引导模型变得更安全、更精确。

但这也会导致大模型「刷榜」的现象：

由于模型表现会通过标准化基准测试来评分，得分高就意味着名气和商业成功，于是公司就往往将训练目标锁定在「刷高分」上。

OpenAI认为，幻觉现象持续存在，部分原因在于当前评估方法设置了错误的激励机制。

研究人员分析了十大热门基准测试中，有九个都采用「答对得1分，空白或错误得0分」的二元评分方式，只有WildBench的评分标准为1–10分制。

虽然回答「我不知道」可能被认为比「严重幻觉但看起来合理的回答」略好，但总体上仍会被评为低于「勉强合格」的回答。

这意味着IDK（我不知道）在该基准下可能得到部分分数，但不会被视为优选策略。

在这种评分机制下，由于「随意猜测」和「不答」惩罚相同，那些喜欢「不懂装懂」的模型，反而会被谨慎回答「我不知道」的模型更容易拿高分。

举个例子，假设大模型被问及某人生日但却不知答案，如果随便猜一天，就会有1/365的概率猜中，而说「不知道」则必然得零分。

如果在数千道测试题中，这种猜测型模型最终在评分机制中的表现会优于承认不确定性的谨慎模型。

Kalai推测，这可能正是过去防幻觉方案迟迟无法落地的原因。

为什么准确率得分越高

幻觉也可能越大

针对唯一「正确答案」的纯客观问题，OpenAI将模型的回复分为三类：准确回复、错误回复以及不妄加猜测的弃权。

OpenAI认为「弃权」体现了谦逊，并将之视为核心价值观。

就准确性而言，前代o4-mini模型表现略胜一筹，然而其错误率（即产生幻觉的概率）显著更高。

这说明，在不确定时采取策略性猜测虽能提升准确率，却会增加错误和幻觉的发生。

OpenAI认为仅以准确率为标准的评分机制仍主导着模型评估体系，促使开发人员倾向于构建盲目猜测而非保留不确定性的模型：

「这正是模型虽然日益进步但仍会产生幻觉，即自信给出错误答案而非承认不确定性的重要原因」。

因此，OpenAI的研究团队呼吁重新设计评分机制，让错误猜测受到惩罚，从而让模型在「碰壁中学会谦虚」。

即使好意的调整

也可能引发反效果

普林斯顿大学计算机科学家、SWE-Bench基准创建者Carlos Jimenez认为想要改评分标准并不容易。

因为不同主题领域都有独特的评估方式，「每个学科在衡量不确定性或信心时都有自己的标准。」

此外，也有学者担心好意的调整也可能引发反效果。

伊利诺伊大学厄巴纳-香槟分校的计算机科学家彭昊警告说，鼓励模型说「我不知道」与当前优化大模型「自信度」的做法一样，也可能带来新的幻觉。

他略带悲观地指出，目前恐怕没有任何数据或指标能自然地解决幻觉问题，因为这些模型「太擅长钻系统的空子了」。

模型幻觉并非单纯的数据问题，而是训练机制、评测体系与商业模式综合因素导致的结果。

在技术层面，研究者普遍认为幻觉无法彻底根除，只能被缓解；

在商业层面，若模型频繁回答「我不知道」，用户体验与留存率都可能下降。

当前，以OpenAI、Anthropic为代表的AI初创公司都面临着巨大的盈利压力，在让模型更真实和更有吸引力之间，没有公司愿意冒着失掉用户的风险，率先牺牲吸引力，因为这很可能将用户推向那些看起来更「自信」的竞争者。

但是从AI技术的进步来看，让AI学会说「我不知道」有助于减少幻觉，推动模型向更成熟的方向进化。

参考资料：

https://www.science.org/content/article/ai-hallucinates-because-it-s-trained-fake-answers-it-doesn-t-know%20

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

LLM首次达到人类语言专家水平！OpenAI o1拿下拆解句法、识别歧义、推理音律

新智元 2025-11-08 12:34:47
0 跟贴 0
终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

新智元 2025-11-08 17:13:46
61 跟贴 61

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

新智元 2025-11-08 19:10:54
0 跟贴 0

字节Seed团队发布循环语言模型Ouro，在预训练阶段直接「思考」

机器之心Pro 2025-11-04 11:58:36
0 跟贴 0
AI六巨头罕见同台！李飞飞激辩LeCun，黄仁勋：你们都错了

新智元 2025-11-08 19:10:18
96 跟贴 96

小成本DeepSeek和Kimi，正攻破奥特曼的「算力护城河」

新智元 2025-11-09 19:06:11
1 跟贴 1

杰克逊抢劫，霍金打拳击？！大量已故名人网上被AI“复活”，被彻底“操控”了

英国那些事儿 2025-11-09 23:08:12
0 跟贴 0
全新人工神经元面世，能耗比人脑低数千倍！或彻底改变AI部署方式

DeepTech深科技 2025-11-09 20:10:45
5 跟贴 5

专访惟德精准谢卫国：AI重塑医学影像，助力国产手术机器人弯道超车 | 直击进博会

财联社 2025-11-09 21:56:11
0 跟贴 0
理想VLA实测，司机大模型靠谱吗？

路咖汽车 2025-11-07 11:43:54
0 跟贴 0
28 岁就当博导，三年两篇 Science，他染最耀眼的金发，做最叛逆的科研

生物学霸 2025-10-13 17:21:44
114 跟贴 114
LLaVA-OneVision-1.5开源，8B模型预训练只需4天、1.6万美元

机器之心Pro 2025-10-13 18:37:02
0 跟贴 0
有时候也会被误解

有光有梦 2025-11-07 12:04:44
1 跟贴 1
小心，从大模型中得到的大都还不能算是知识

白驹谈人机 2025-11-09 00:08:20
0 跟贴 0
福建舰三大指标，给全球航母划下鸿沟，从此海军只分中美和其他

軍武达人 2025-11-08 16:42:33
2 跟贴 2
Science 子刊，1 区 TOP，影响因子 6.8，自引率低，版面费友好

生物学霸 2025-06-02 17:42:26
0 跟贴 0
华师大江波谈 AI for 教育研究，“古早”语料也有很大价值

机器之心Pro 2025-09-29 22:47:16
0 跟贴 0
易鑫正式发布汽车金融行业首个Agentic大模型

生活栏目论 2025-11-08 23:47:45
0 跟贴 0
有时候善意的好意，会无意的被人误解，不过也不要停下善意

吴婷998 2025-11-09 17:30:00
0 跟贴 0
垃圾进垃圾出，大模型刷多了垃圾推文，智商骤降还变自恋狂

机器之心Pro 2025-10-24 18:51:47
0 跟贴 0
这些年你对蜻蜓的误解太深了

大鹏观史 2025-11-08 22:44:23
0 跟贴 0
【夜读】战胜拖延，只需每天多给自己5分钟

中国航空城阎良 2025-11-09 22:03:54
0 跟贴 0
为凑免费活动买一堆无用商品，年轻人以为薅平台羊毛，今终于清醒

北纬的咖啡豆 2025-11-09 21:22:22
0 跟贴 0
报恩小猫太会了！叼死老鼠给教授，竟测出新型病毒发 SCI，这波血赚

生物学霸 2025-10-26 17:10:46
0 跟贴 0
俄媒：俄军即将攻占乌克兰"第三首都"

每日经济新闻 2025-11-08 22:55:11
48206 跟贴 48206
115岁的李陈氏，出生于清朝的“老宝贝”｜面孔

大象新闻 2025-11-09 09:38:06
458 跟贴 458
美财长：美25年来制造首块稀土磁铁结束中国"卡脖子"

澎湃新闻 2025-11-08 21:49:11
12676 跟贴 12676
马斯克Grok 4深夜大升级：200万逆天上下文、五倍GPT-5「脑容量」！

新智元 2025-11-09 11:21:24
2 跟贴 2
人类幼崽的理解能力有多绝？网友：完全不走寻常路，只有出乎意料

夜深爱杂谈 2025-11-08 22:18:59
17 跟贴 17
郑丽文出席吴石追思会面对绿营妖言不得不出言澄清

新民周刊 2025-11-09 09:07:52
647 跟贴 647
女儿跟妈妈说大姨妈来家里做客了，妈妈却误解了意思，网友：此大姨妈非彼大姨妈

逛吃青岛 2025-11-05 19:57:26
0 跟贴 0
腔调尽失？详解《繁花》声明：从从容容、匆匆忙忙到连滚带爬

文娱春秋Plus 2025-11-09 12:09:11
194 跟贴 194
这难不成就是蒸汽机模型吗

带你看看 2025-11-08 10:25:02
1 跟贴 1
网友称小米一个电器领域就能把格力"干掉" 王自如回应

潇湘晨报 2025-11-09 12:35:21
5405 跟贴 5405
AI理解语言的终极密码，千问3向量模型开源，性能超谷歌OpenAI

机器之心Pro 2025-06-11 19:17:56
0 跟贴 0
张家界荒野求生挑战赛新退出选手大赞泡面“太好吃”，目前仅剩16名选手

极目新闻 2025-11-09 11:38:20
985 跟贴 985
广东男篮险胜山东，杜锋五上五下策略暴露默契不足

黑翼天使 2025-11-08 01:05:40
0 跟贴 0
17个激励人心的励志正能量句子，简单的语句，道出人生的哲理！

心灵悦读 2025-11-08 09:30:43
0 跟贴 0
大哥付完钱太心急了，直接把模型塞进嘴，大哥：咦！这没味啊

观客视野 2025-11-07 15:35:05
0 跟贴 0
中国大V的两大特征：为什么越蠢的人，粉丝越多？

中外概览 2025-11-09 15:46:45
32 跟贴 32

4-0大胜后没人跟梅西换球衣？原因曝光引热议，球迷：优质偶像

4-0大胜后没人跟梅西换球衣？原因曝光引热议，球迷：优质偶像

侧身凌空斩

2025-11-09 12:11:46

北美夺冠，耗资5.7亿，中国观众不买账，上映9小时票房仅255万

北美夺冠，耗资5.7亿，中国观众不买账，上映9小时票房仅255万

喜欢历史的阿繁

2025-11-08 10:04:28

淘宝已被调查

政知新媒体

2025-11-08 20:27:47

封杀四年，49岁赵薇突传消息，因胃癌去世传闻5个月前就真相大白

封杀四年，49岁赵薇突传消息，因胃癌去世传闻5个月前就真相大白

一娱三分地

2025-11-07 15:09:53

申花名宿马莱莱上不上场不是关键海港的三叉戟能否上场才重要

申花名宿马莱莱上不上场不是关键海港的三叉戟能否上场才重要

80后体育大蜀黍

2025-11-09 22:42:44

美防长：美国将在必要时凭借本国现有资源投入战争，并获得胜利

美防长：美国将在必要时凭借本国现有资源投入战争，并获得胜利

止戈军是我

2025-11-08 13:04:57

打嗨了！谢谢你，快船！神级3方大交易......

打嗨了！谢谢你，快船！神级3方大交易......

篮球实战宝典

2025-11-09 22:10:30

天冷了，少吃猪肉多吃它，比鱼肉便宜，比牛羊肉鲜美，随手一炒

天冷了，少吃猪肉多吃它，比鱼肉便宜，比牛羊肉鲜美，随手一炒

阿龙美食记

2025-11-08 14:10:15

俄方没想到！西方连中方船都不敢查，直接放行！

俄方没想到！西方连中方船都不敢查，直接放行！

大喵吃鱼

2025-11-09 20:17:58

利物浦冬窗首签曝光！萨拉赫接班人敲定，转会费或超6500万镑

利物浦冬窗首签曝光！萨拉赫接班人敲定，转会费或超6500万镑

锐评利物浦

2025-11-08 23:10:29

蒋介石死后，无子女的宋美龄，靠啥在美国过了28年奢华生活？

蒋介石死后，无子女的宋美龄，靠啥在美国过了28年奢华生活？

牛马搞笑

2025-11-01 09:52:48

福建舰舰载机空警-600小名首次公布：哪吒！研制人员详细透露设计特点：机翼可扇形折叠，像跳舞一样

福建舰舰载机空警-600小名首次公布：哪吒！研制人员详细透露设计特点：机翼可扇形折叠，像跳舞一样

台州交通广播

2025-11-09 12:53:01

马卡：小西蒙尼如今表现出色，离不开去年梅西对他的明智建议

马卡：小西蒙尼如今表现出色，离不开去年梅西对他的明智建议

懂球帝

2025-11-09 20:50:05

不止续航！新款Model Y 5大硬核升级：充电比加油快，六座+5G座舱香

不止续航！新款Model Y 5大硬核升级：充电比加油快，六座+5G座舱香

音乐时光的娱乐

2025-11-09 14:37:43

她长相虽然不是特别好，但身材比例是真好，看面相是个过日子的人

她长相虽然不是特别好，但身材比例是真好，看面相是个过日子的人

草莓解说体育

2025-11-08 15:01:49

不续约就卖掉！皇马明示维尼修斯，巴西人来到十字路口

不续约就卖掉！皇马明示维尼修斯，巴西人来到十字路口

里芃芃体育

2025-11-10 00:15:02

什么是文明？看挪威富裕后如何对待自己的国民

什么是文明？看挪威富裕后如何对待自己的国民

深度报

2025-11-07 22:57:08

夫妻性生活和谐的10个“黄金法则”

夫妻性生活和谐的10个“黄金法则”

精彩分享快乐

2025-11-10 00:05:03

备战明年“苏超”，9座城市已官宣行动！

备战明年“苏超”，9座城市已官宣行动！

江南晚报

2025-11-09 19:37:11

承认打不赢广东队？四川最强核心拒绝夺金，目标仅仅只是打进前3

承认打不赢广东队？四川最强核心拒绝夺金，目标仅仅只是打进前3

绯雨儿

2025-11-09 11:53:06

AI产业主平台领航智能+时代

13828文章数 66239关注度

往期回顾全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

陕西男子打晕妻子误以为已死将人扔下土崖致其死亡

头条要闻

陕西男子打晕妻子误以为已死将人扔下土崖致其死亡

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响：唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万霜雾灰与青峦翠配色正式开启交付

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

游戏

亲子

手机

本地新闻

这届干饭人，已经把博物馆吃成了食堂

教育要闻

收藏！2026艺术类文化课录取分数线要求

尺度太大被迫降级16+？灵笼团队做了款剧情演出降维打击的二游

亲子要闻

矫正头盔真的有用吗？

手机要闻

曝直板iPhone手机屏下摄像头规划2027年上线，预计采用3D屏下人脸识别

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版