网易首页 > 网易号 > 正文 申请入驻

改掉幻觉=杀死AI?Science曝光大模型「先天死穴」

0
分享至


新智元报道

编辑:元宇

【新智元导读】《Science》的一篇新文章指出,大模型存在一个先天难解的软肋:幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」,虽然有助于减少模型幻觉,但可能因此影响用户留存与活跃度,动摇商业根本。

就在OpenAI完成重组,解除上市限制的当天,《Science》一篇热文曝出大模型的一个先天致命软肋,这一软肋导致大模型难以彻底摆脱幻觉。


文章指出,虽然OpenAI完成了期待已久的重组,但它的核心产品仍会出现幻觉

以往我们经常将这种幻觉主要归因于训练数据质量,但这一解释并不充分。

上个月OpenAI与佐治亚理工学院的研究团队在一篇预印本论文中指出:

就像学生在考试遇到难题时会「蒙」答案一样,大模型在不确定的情况下也会倾向于「猜」,生成看似合理但其实错误的回答,而不是承认自己不知道。


论文:https://arxiv.org/abs/2509.04664《大模型为何会产生幻觉》

在不确定时选择「我不知道」,可显著降低幻觉,但为什么模型设计者们没有这么做?

研究人员认为问题主要出在大模型的训练和评估机制上:

在大模型的训练和评估过程中更倾向于「奖励猜测」,而不是「鼓励承认不确定性」。

但要改变这一点并不容易。

让大模型学会说「我不知道」,也可能动摇AI厂商的商业根基。

比如,有人就质疑OpenAI是否会真心让自家模型更重视「真实性」而不是「吸引力」。

这是一个极大的挑战。

如果ChatGPT经常回答「我不知道」,用户可能就会流失到竞争对手那里。

大模型幻觉为何难以根除?

「如果把幻觉彻底修好,将会杀死这个产品」。

谢菲尔德大学的AI研究员魏星曾发文称OpenAI的「反幻觉」方案会杀死ChatGPT。


OpenAI的研究人员认为幻觉并不神秘,他们分析了大模型在预训练阶段可能导致的错误,发现即使训练数据无误,预训练目标也可能使模型产生错误。


研究人员进一步指出,幻觉之所以在后续阶段持续存在,是因为主流评估体系的评分方式鼓励模型像学生考试一样去「猜」,而不是诚实地表达不确定性。

OpenAI曾探讨过幻觉难以根除的原因,认为其源头在于预训练的「下一个词预测」:模型通过学习海量文本,掌握如何根据统计规律预测下一个词。

但这种预测就像是囫囵吞枣,每个语句都没有通过「真/假」标签进行优化,当缺乏标记为错误的示例时,有效语句与无效语句的区分就显得尤为困难,因此会出现幻觉。

以图片识别举例,若数百万张猫狗照片被标注为「猫」或「狗」,算法便能可靠分类。

但如果改为按宠物生日标注照片,由于生日数据本质上随机,无论算法多么先进,此任务必然产生错误。

在语言模型的预训练中也存在类似机制。

比如拼写和括号遵循固定模式,因此随规模扩大错误会消失。

而像宠物生日这类任意低频事实无法仅凭模式预测,因此容易导致幻觉。

OpenAI澄清了几种关于模型「幻觉」的误解:

误解:提高准确率就能消除幻觉,因为100%准确的模型永远不会产生幻觉。

主张:准确率永远无法达到100%,因为无论模型规模、搜索能力或推理能力如何,某些现实世界的问题本质上无法解答。

误解:幻觉现象不可避免。

主张:并非如此,因为语言模型在不确定时可选择保持沉默。

误解:避免幻觉需要特定程度的智能,而这仅能通过大型模型实现。

主张:小型模型更易认知自身局限。例如面对毛利语问题时,不懂毛利语的小型模型可直接回应「我不知道」,而掌握部分毛利语的模型则需评估回答信心。

误解:幻觉是现代语言模型中神秘的故障现象。

主张:我们已理解幻觉产生的统计机制及其在评估中的奖励机制。

为什么大模型「刷榜」难杜绝?

OpenAI官方博客在介绍这篇论文时,将幻觉描述为「看似合理却错误的陈述」。


博客:https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

而且幻觉的出现具有不可预知性,它可能以出人意料的方式出现。

比如,你询问一篇论文的标题,它会自信地给出三个不同答案,但都是错误的。

该论文的合著者、OpenAI研究科学家Adam Kalai认为,虽然我们永远不可能做到100%准确,但这并不意味着模型必须要产生幻觉。

解决之道可以在「后训练」阶段,借助人类反馈和其他微调(fine-tuning)方法会引导模型变得更安全、更精确。

但这也会导致大模型「刷榜」的现象:

由于模型表现会通过标准化基准测试来评分,得分高就意味着名气和商业成功,于是公司就往往将训练目标锁定在「刷高分」上。

OpenAI认为,幻觉现象持续存在,部分原因在于当前评估方法设置了错误的激励机制。

研究人员分析了十大热门基准测试中,有九个都采用「答对得1分,空白或错误得0分」的二元评分方式,只有WildBench的评分标准为1–10分制。

虽然回答「我不知道」可能被认为比「严重幻觉但看起来合理的回答」略好,但总体上仍会被评为低于「勉强合格」的回答。

这意味着IDK(我不知道)在该基准下可能得到部分分数,但不会被视为优选策略。


在这种评分机制下,由于「随意猜测」和「不答」惩罚相同,那些喜欢「不懂装懂」的模型,反而会被谨慎回答「我不知道」的模型更容易拿高分。

举个例子,假设大模型被问及某人生日但却不知答案,如果随便猜一天,就会有1/365的概率猜中,而说「不知道」则必然得零分。

如果在数千道测试题中,这种猜测型模型最终在评分机制中的表现会优于承认不确定性的谨慎模型。

Kalai推测,这可能正是过去防幻觉方案迟迟无法落地的原因。

为什么准确率得分越高

幻觉也可能越大

针对唯一「正确答案」的纯客观问题,OpenAI将模型的回复分为三类:准确回复、错误回复以及不妄加猜测的弃权。

OpenAI认为「弃权」体现了谦逊,并将之视为核心价值观。


就准确性而言,前代o4-mini模型表现略胜一筹,然而其错误率(即产生幻觉的概率)显著更高。

这说明,在不确定时采取策略性猜测虽能提升准确率,却会增加错误和幻觉的发生。

OpenAI认为仅以准确率为标准的评分机制仍主导着模型评估体系,促使开发人员倾向于构建盲目猜测而非保留不确定性的模型:

「这正是模型虽然日益进步但仍会产生幻觉,即自信给出错误答案而非承认不确定性的重要原因」。

因此,OpenAI的研究团队呼吁重新设计评分机制,让错误猜测受到惩罚,从而让模型在「碰壁中学会谦虚」。

即使好意的调整

也可能引发反效果

普林斯顿大学计算机科学家、SWE-Bench基准创建者Carlos Jimenez认为想要改评分标准并不容易。

因为不同主题领域都有独特的评估方式,「每个学科在衡量不确定性或信心时都有自己的标准。」

此外,也有学者担心好意的调整也可能引发反效果。

伊利诺伊大学厄巴纳-香槟分校的计算机科学家彭昊警告说,鼓励模型说「我不知道」与当前优化大模型「自信度」的做法一样,也可能带来新的幻觉。

他略带悲观地指出,目前恐怕没有任何数据或指标能自然地解决幻觉问题,因为这些模型「太擅长钻系统的空子了」。

模型幻觉并非单纯的数据问题,而是训练机制、评测体系与商业模式综合因素导致的结果。

在技术层面,研究者普遍认为幻觉无法彻底根除,只能被缓解;

在商业层面,若模型频繁回答「我不知道」,用户体验与留存率都可能下降。

当前,以OpenAI、Anthropic为代表的AI初创公司都面临着巨大的盈利压力,在让模型更真实和更有吸引力之间,没有公司愿意冒着失掉用户的风险,率先牺牲吸引力,因为这很可能将用户推向那些看起来更「自信」的竞争者。

但是从AI技术的进步来看,让AI学会说「我不知道」有助于减少幻觉,推动模型向更成熟的方向进化。

参考资料:

https://www.science.org/content/article/ai-hallucinates-because-it-s-trained-fake-answers-it-doesn-t-know%20

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4-0大胜后没人跟梅西换球衣?原因曝光引热议,球迷:优质偶像

4-0大胜后没人跟梅西换球衣?原因曝光引热议,球迷:优质偶像

侧身凌空斩
2025-11-09 12:11:46
北美夺冠,耗资5.7亿,中国观众不买账,上映9小时票房仅255万

北美夺冠,耗资5.7亿,中国观众不买账,上映9小时票房仅255万

喜欢历史的阿繁
2025-11-08 10:04:28
淘宝已被调查

淘宝已被调查

政知新媒体
2025-11-08 20:27:47
封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

一娱三分地
2025-11-07 15:09:53
申花名宿马莱莱上不上场不是关键 海港的三叉戟能否上场才重要

申花名宿马莱莱上不上场不是关键 海港的三叉戟能否上场才重要

80后体育大蜀黍
2025-11-09 22:42:44
美防长:美国将在必要时凭借本国现有资源投入战争,并获得胜利

美防长:美国将在必要时凭借本国现有资源投入战争,并获得胜利

止戈军是我
2025-11-08 13:04:57
打嗨了!谢谢你,快船!神级3方大交易......

打嗨了!谢谢你,快船!神级3方大交易......

篮球实战宝典
2025-11-09 22:10:30
天冷了,少吃猪肉多吃它,比鱼肉便宜,比牛羊肉鲜美,随手一炒

天冷了,少吃猪肉多吃它,比鱼肉便宜,比牛羊肉鲜美,随手一炒

阿龙美食记
2025-11-08 14:10:15
俄方没想到!西方连中方船都不敢查,直接放行!

俄方没想到!西方连中方船都不敢查,直接放行!

大喵吃鱼
2025-11-09 20:17:58
利物浦冬窗首签曝光!萨拉赫接班人敲定,转会费或超6500万镑

利物浦冬窗首签曝光!萨拉赫接班人敲定,转会费或超6500万镑

锐评利物浦
2025-11-08 23:10:29
蒋介石死后,无子女的宋美龄,靠啥在美国过了28年奢华生活?

蒋介石死后,无子女的宋美龄,靠啥在美国过了28年奢华生活?

牛马搞笑
2025-11-01 09:52:48
福建舰舰载机空警-600小名首次公布:哪吒!研制人员详细透露设计特点:机翼可扇形折叠,像跳舞一样

福建舰舰载机空警-600小名首次公布:哪吒!研制人员详细透露设计特点:机翼可扇形折叠,像跳舞一样

台州交通广播
2025-11-09 12:53:01
马卡:小西蒙尼如今表现出色,离不开去年梅西对他的明智建议

马卡:小西蒙尼如今表现出色,离不开去年梅西对他的明智建议

懂球帝
2025-11-09 20:50:05
不止续航!新款Model Y 5大硬核升级:充电比加油快,六座+5G座舱香

不止续航!新款Model Y 5大硬核升级:充电比加油快,六座+5G座舱香

音乐时光的娱乐
2025-11-09 14:37:43
她长相虽然不是特别好,但身材比例是真好,看面相是个过日子的人

她长相虽然不是特别好,但身材比例是真好,看面相是个过日子的人

草莓解说体育
2025-11-08 15:01:49
不续约就卖掉!皇马明示维尼修斯,巴西人来到十字路口

不续约就卖掉!皇马明示维尼修斯,巴西人来到十字路口

里芃芃体育
2025-11-10 00:15:02
什么是文明?看挪威富裕后如何对待自己的国民​

什么是文明?看挪威富裕后如何对待自己的国民​

深度报
2025-11-07 22:57:08
夫妻性生活和谐的10个“黄金法则”

夫妻性生活和谐的10个“黄金法则”

精彩分享快乐
2025-11-10 00:05:03
备战明年“苏超”,9座城市已官宣行动!

备战明年“苏超”,9座城市已官宣行动!

江南晚报
2025-11-09 19:37:11
承认打不赢广东队?四川最强核心拒绝夺金,目标仅仅只是打进前3

承认打不赢广东队?四川最强核心拒绝夺金,目标仅仅只是打进前3

绯雨儿
2025-11-09 11:53:06
2025-11-10 01:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13828文章数 66239关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

本地
教育
游戏
亲子
手机

本地新闻

这届干饭人,已经把博物馆吃成了食堂

教育要闻

收藏!2026艺术类文化课录取分数线要求

尺度太大被迫降级16+?灵笼团队做了款剧情演出降维打击的二游

亲子要闻

矫正头盔真的有用吗?

手机要闻

曝直板iPhone手机屏下摄像头规划2027年上线,预计采用3D屏下人脸识别

无障碍浏览 进入关怀版