网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

改掉幻觉=杀死AI？Science曝光大模型「先天死穴」

2025-11-09 11:21:12　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】《Science》的一篇新文章指出，大模型存在一个先天难解的软肋：幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」，虽然有助于减少模型幻觉，但可能因此影响用户留存与活跃度，动摇商业根本。

就在OpenAI完成重组，解除上市限制的当天，《Science》一篇热文曝出大模型的一个先天致命软肋，这一软肋导致大模型难以彻底摆脱幻觉。

文章指出，虽然OpenAI完成了期待已久的重组，但它的核心产品仍会出现幻觉。

以往我们经常将这种幻觉主要归因于训练数据质量，但这一解释并不充分。

上个月OpenAI与佐治亚理工学院的研究团队在一篇预印本论文中指出：

就像学生在考试遇到难题时会「蒙」答案一样，大模型在不确定的情况下也会倾向于「猜」，生成看似合理但其实错误的回答，而不是承认自己不知道。

论文：https://arxiv.org/abs/2509.04664《大模型为何会产生幻觉》

在不确定时选择「我不知道」，可显著降低幻觉，但为什么模型设计者们没有这么做？

研究人员认为问题主要出在大模型的训练和评估机制上：

在大模型的训练和评估过程中更倾向于「奖励猜测」，而不是「鼓励承认不确定性」。

但要改变这一点并不容易。

让大模型学会说「我不知道」，也可能动摇AI厂商的商业根基。

比如，有人就质疑OpenAI是否会真心让自家模型更重视「真实性」而不是「吸引力」。

这是一个极大的挑战。

如果ChatGPT经常回答「我不知道」，用户可能就会流失到竞争对手那里。

大模型幻觉为何难以根除？

「如果把幻觉彻底修好，将会杀死这个产品」。

谢菲尔德大学的AI研究员魏星曾发文称OpenAI的「反幻觉」方案会杀死ChatGPT。

OpenAI的研究人员认为幻觉并不神秘，他们分析了大模型在预训练阶段可能导致的错误，发现即使训练数据无误，预训练目标也可能使模型产生错误。

研究人员进一步指出，幻觉之所以在后续阶段持续存在，是因为主流评估体系的评分方式鼓励模型像学生考试一样去「猜」，而不是诚实地表达不确定性。

OpenAI曾探讨过幻觉难以根除的原因，认为其源头在于预训练的「下一个词预测」：模型通过学习海量文本，掌握如何根据统计规律预测下一个词。

但这种预测就像是囫囵吞枣，每个语句都没有通过「真/假」标签进行优化，当缺乏标记为错误的示例时，有效语句与无效语句的区分就显得尤为困难，因此会出现幻觉。

以图片识别举例，若数百万张猫狗照片被标注为「猫」或「狗」，算法便能可靠分类。

但如果改为按宠物生日标注照片，由于生日数据本质上随机，无论算法多么先进，此任务必然产生错误。

在语言模型的预训练中也存在类似机制。

比如拼写和括号遵循固定模式，因此随规模扩大错误会消失。

而像宠物生日这类任意低频事实无法仅凭模式预测，因此容易导致幻觉。

OpenAI澄清了几种关于模型「幻觉」的误解：

误解：提高准确率就能消除幻觉，因为100%准确的模型永远不会产生幻觉。

主张：准确率永远无法达到100%，因为无论模型规模、搜索能力或推理能力如何，某些现实世界的问题本质上无法解答。

误解：幻觉现象不可避免。

主张：并非如此，因为语言模型在不确定时可选择保持沉默。

误解：避免幻觉需要特定程度的智能，而这仅能通过大型模型实现。

主张：小型模型更易认知自身局限。例如面对毛利语问题时，不懂毛利语的小型模型可直接回应「我不知道」，而掌握部分毛利语的模型则需评估回答信心。

误解：幻觉是现代语言模型中神秘的故障现象。

主张：我们已理解幻觉产生的统计机制及其在评估中的奖励机制。

为什么大模型「刷榜」难杜绝？

OpenAI官方博客在介绍这篇论文时，将幻觉描述为「看似合理却错误的陈述」。

博客：https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

而且幻觉的出现具有不可预知性，它可能以出人意料的方式出现。

比如，你询问一篇论文的标题，它会自信地给出三个不同答案，但都是错误的。

该论文的合著者、OpenAI研究科学家Adam Kalai认为，虽然我们永远不可能做到100%准确，但这并不意味着模型必须要产生幻觉。

解决之道可以在「后训练」阶段，借助人类反馈和其他微调（fine-tuning）方法会引导模型变得更安全、更精确。

但这也会导致大模型「刷榜」的现象：

由于模型表现会通过标准化基准测试来评分，得分高就意味着名气和商业成功，于是公司就往往将训练目标锁定在「刷高分」上。

OpenAI认为，幻觉现象持续存在，部分原因在于当前评估方法设置了错误的激励机制。

研究人员分析了十大热门基准测试中，有九个都采用「答对得1分，空白或错误得0分」的二元评分方式，只有WildBench的评分标准为1–10分制。

虽然回答「我不知道」可能被认为比「严重幻觉但看起来合理的回答」略好，但总体上仍会被评为低于「勉强合格」的回答。

这意味着IDK（我不知道）在该基准下可能得到部分分数，但不会被视为优选策略。

在这种评分机制下，由于「随意猜测」和「不答」惩罚相同，那些喜欢「不懂装懂」的模型，反而会被谨慎回答「我不知道」的模型更容易拿高分。

举个例子，假设大模型被问及某人生日但却不知答案，如果随便猜一天，就会有1/365的概率猜中，而说「不知道」则必然得零分。

如果在数千道测试题中，这种猜测型模型最终在评分机制中的表现会优于承认不确定性的谨慎模型。

Kalai推测，这可能正是过去防幻觉方案迟迟无法落地的原因。

为什么准确率得分越高

幻觉也可能越大

针对唯一「正确答案」的纯客观问题，OpenAI将模型的回复分为三类：准确回复、错误回复以及不妄加猜测的弃权。

OpenAI认为「弃权」体现了谦逊，并将之视为核心价值观。

就准确性而言，前代o4-mini模型表现略胜一筹，然而其错误率（即产生幻觉的概率）显著更高。

这说明，在不确定时采取策略性猜测虽能提升准确率，却会增加错误和幻觉的发生。

OpenAI认为仅以准确率为标准的评分机制仍主导着模型评估体系，促使开发人员倾向于构建盲目猜测而非保留不确定性的模型：

「这正是模型虽然日益进步但仍会产生幻觉，即自信给出错误答案而非承认不确定性的重要原因」。

因此，OpenAI的研究团队呼吁重新设计评分机制，让错误猜测受到惩罚，从而让模型在「碰壁中学会谦虚」。

即使好意的调整

也可能引发反效果

普林斯顿大学计算机科学家、SWE-Bench基准创建者Carlos Jimenez认为想要改评分标准并不容易。

因为不同主题领域都有独特的评估方式，「每个学科在衡量不确定性或信心时都有自己的标准。」

此外，也有学者担心好意的调整也可能引发反效果。

伊利诺伊大学厄巴纳-香槟分校的计算机科学家彭昊警告说，鼓励模型说「我不知道」与当前优化大模型「自信度」的做法一样，也可能带来新的幻觉。

他略带悲观地指出，目前恐怕没有任何数据或指标能自然地解决幻觉问题，因为这些模型「太擅长钻系统的空子了」。

模型幻觉并非单纯的数据问题，而是训练机制、评测体系与商业模式综合因素导致的结果。

在技术层面，研究者普遍认为幻觉无法彻底根除，只能被缓解；

在商业层面，若模型频繁回答「我不知道」，用户体验与留存率都可能下降。

当前，以OpenAI、Anthropic为代表的AI初创公司都面临着巨大的盈利压力，在让模型更真实和更有吸引力之间，没有公司愿意冒着失掉用户的风险，率先牺牲吸引力，因为这很可能将用户推向那些看起来更「自信」的竞争者。

但是从AI技术的进步来看，让AI学会说「我不知道」有助于减少幻觉，推动模型向更成熟的方向进化。

参考资料：

https://www.science.org/content/article/ai-hallucinates-because-it-s-trained-fake-answers-it-doesn-t-know%20

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

一夜200万阅读，OpenAI神同步！这项测评框架让全球顶尖LLM全翻车

新智元 2026-01-15 09:12:28
2 跟贴 2
大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0

2026年，大模型训练的下半场属于「强化学习云」

机器之心Pro 2026-01-12 14:03:47
0 跟贴 0

OpenAI亿元收购4人团队 AI创业正进入「一人独角兽」时代

爱范儿 2026-01-15 15:27:17
0 跟贴 0
字节Seed团队发布循环语言模型Ouro，在预训练阶段直接「思考」

机器之心Pro 2025-11-04 11:58:36
0 跟贴 0

35天，版本之子变路人甲：AI榜单太残酷！

新智元 2026-01-15 21:19:35
0 跟贴 0

世界正变得破碎，中国支付却忙着缝合

虎嗅APP 2026-01-15 18:15:11
1 跟贴 1
人脸机器人登上Science Robotics封面：AI教会仿生机器人开口说话

机器之心Pro 2026-01-15 17:30:18
0 跟贴 0

陶哲轩惊叹！数学奇点初现，AI首次给出人类无法企及的原创证明

新智元 2026-01-15 21:19:52
5 跟贴 5
看懂日本工业，从一台工业机器人开始

虎嗅APP 2026-01-15 23:28:34
0 跟贴 0
引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

机器之心Pro 2026-01-12 17:17:59
0 跟贴 0
当千问App打通阿里“全家桶”：一场“入口革命”，还是生态“围墙”？

每日经济新闻 2026-01-15 22:30:07
2 跟贴 2
SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

机器之心Pro 2025-11-14 19:18:57
0 跟贴 0
ChatGPT发了个“谷歌翻译”，但我只觉得多余

智东西 2026-01-15 21:17:35
0 跟贴 0
真不愧是老司机，误解的题都杀出一条路，让人看得心惊胆战的

搞笑圣兽 2026-01-12 14:29:23
22 跟贴 22
15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案

机器之心Pro 2025-12-23 12:52:34
0 跟贴 0
真道歉？假策略？

说情道理张醒之 2026-01-13 09:42:21
11 跟贴 11
LLaVA-OneVision-1.5开源，8B模型预训练只需4天、1.6万美元

机器之心Pro 2025-10-13 18:37:02
0 跟贴 0
架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

机器之心Pro 2025-12-02 14:25:38
0 跟贴 0
大哥吃甘蔗误伤自己，一旁同伴被误解，这下有嘴也说不清！

搞笑的咕咕鸟 2026-01-14 10:34:00
14 跟贴 14
劲拓股份：公司智能检测设备已引入AI深度学习算法，支持PCB元件自动编程、识别及不良判定

每日经济新闻 2026-01-15 21:38:08
0 跟贴 0
中国Coding Agent最大融资浮现，蚂蚁、凯辉、锦秋等投了

36氪 2026-01-15 16:41:05
1 跟贴 1
多个研究团队未能复现《Science》重磅研究结果，作者重新分析后申请撤稿

医咖会 2026-01-14 19:56:09
3 跟贴 3
清华新研究，Nature+Science双杀！

量子位 2026-01-15 15:15:04
2 跟贴 2
免费编程赛USACO 2026规则大变，中国学生如何应对？

电脑报少年派 2026-01-12 17:26:11
1 跟贴 1
解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

机器之心Pro 2026-01-15 12:44:17
0 跟贴 0
美国一航母打击群正被调往中东和中亚地区

财联社 2026-01-15 08:07:32
8511 跟贴 8511
年过30，“成熟”不是年龄的增长，而是有能笑着说“没事”的底气

木言观 2026-01-15 12:32:38
7 跟贴 7
不但机械要厉害，控制的算法更厉害，网友瞬间不淡定了

湛蓝笑谈生活 2026-01-15 10:30:31
0 跟贴 0
垃圾进垃圾出，大模型刷多了垃圾推文，智商骤降还变自恋狂

机器之心Pro 2025-10-24 18:51:47
0 跟贴 0
真实的赌场没有规律只有输钱

炙青剪辑 2026-01-15 16:46:43
1 跟贴 1
一路口提速超50% 上海首创AI大模型整治交通顽疾

看看新闻Knews 2026-01-15 19:33:28
0 跟贴 0
报恩小猫太会了！叼死老鼠给教授，竟测出新型病毒发 SCI，这波血赚

生物学霸 2025-10-26 17:10:46
0 跟贴 0
为什么你的团队，无法像你一样全情投入？

格上理财网 2026-01-15 21:26:40
0 跟贴 0
1105一年级找规律：这个规律是很啥?没发现呢，左看右看就是看不

我服子佩 2026-01-11 20:20:49
1 跟贴 1
1126一年级找规律:孩子左看右看就是没看出来，啥规律，啥规律

我服子佩 2026-01-12 12:11:48
1 跟贴 1
降温20℃！要下雪了！江苏降雪范围和降雪量速报

江苏新闻 2026-01-15 18:47:22
50 跟贴 50
聂卫平培养出古力柯洁等顶尖棋手

北京青年报 2026-01-15 09:09:18
1879 跟贴 1879
DeepMind负责人：2036 AI意识觉醒？LeCun怒怼：LLM路线全错！

新智元 2025-12-16 16:55:25
0 跟贴 0
“我们就像东郭先生”，嫣然儿医房东一方回应李亚鹏长视频

大象新闻 2026-01-15 16:29:04
41 跟贴 41

一夜间南海12岛礁合体，5800亿吨海水被吸走，东大这盘棋下得高明

一夜间南海12岛礁合体，5800亿吨海水被吸走，东大这盘棋下得高明

趣生活

2026-01-15 19:50:29

轰33+4+3！追平历史第一，伦纳德赛后谈纪录，他想换快船联盟第一

轰33+4+3！追平历史第一，伦纳德赛后谈纪录，他想换快船联盟第一

巴叔GO聊体育

2026-01-15 15:47:03

秦岚和王思聪的瓜，惊呆了！

黎兜兜

2026-01-14 22:05:04

北京一女子在超市6次盗窃车厘子，被警方刑拘；其在单位做法务、收入高，一斤车厘子价格才30元

北京一女子在超市6次盗窃车厘子，被警方刑拘；其在单位做法务、收入高，一斤车厘子价格才30元

大风新闻

2026-01-15 11:59:04

5行代码，逼疯整个硅谷！澳洲放羊大叔，捅开AI编程奇点

5行代码，逼疯整个硅谷！澳洲放羊大叔，捅开AI编程奇点

新智元

2026-01-14 17:38:10

深渊凝视：为什么从月球看地球，会让人感到一种彻骨的恐惧？

深渊凝视：为什么从月球看地球，会让人感到一种彻骨的恐惧？

观察宇宙

2026-01-14 17:34:31

哈梅内伊制定逃离计划！拟逃莫斯科，个人资产雄厚

哈梅内伊制定逃离计划！拟逃莫斯科，个人资产雄厚

知兵

2026-01-06 00:27:01

特战部队进驻台北！赖清德当局开始慌了，下令加强防斩首演练

特战部队进驻台北！赖清德当局开始慌了，下令加强防斩首演练

温读史

2026-01-14 10:23:23

U23八强战在即：一主力停赛+阵容齐整！中国队身价第一，能否爆冷

U23八强战在即：一主力停赛+阵容齐整！中国队身价第一，能否爆冷

菜菜有话说3404

2026-01-16 00:59:43

美国已正式开始出售委内瑞拉石油，交易价值5亿美元！美国政府官员：预计未来几天和几周还将进行更多石油销售

美国已正式开始出售委内瑞拉石油，交易价值5亿美元！美国政府官员：预计未来几天和几周还将进行更多石油销售

每日经济新闻

2026-01-15 14:44:10

苍天好轮回!徐帆回应离婚5个月后，冯小刚迎来"反噬"

苍天好轮回!徐帆回应离婚5个月后，冯小刚迎来"反噬"

素衣读史

2026-01-13 12:10:41

巴萨中场“内卷”，天才少年何去何从？

巴萨中场“内卷”，天才少年何去何从？

麦咪熊熊

2026-01-16 01:00:12

92岁表演艺术家陶玉玲去世，冯远征曹可凡悼念，曾多次战胜病魔

92岁表演艺术家陶玉玲去世，冯远征曹可凡悼念，曾多次战胜病魔

扒虾侃娱

2026-01-15 22:22:52

高考719分我骗女友考408，她转身跟学霸去清华！开学我们四目相对

高考719分我骗女友考408，她转身跟学霸去清华！开学我们四目相对

星宇共鸣

2026-01-13 09:20:02

阿娇现身茶餐厅打扮再受争议！网友吐槽：楼下倒垃圾都觉得丑

阿娇现身茶餐厅打扮再受争议！网友吐槽：楼下倒垃圾都觉得丑

粤睇先生

2026-01-16 00:26:47

古巴能源供应被切断，垃圾堆积如山

古巴能源供应被切断，垃圾堆积如山

昊轩看世界

2026-01-14 10:15:12

土媒：坎特放弃2500万欧的年薪，接受费内巴切800万欧的报价

土媒：坎特放弃2500万欧的年薪，接受费内巴切800万欧的报价

懂球帝

2026-01-15 15:17:09

伊朗：骚乱事件主要幕后人员落网

伊朗：骚乱事件主要幕后人员落网

澎湃新闻

2026-01-15 01:05:25

美国航母出动！伊朗处于最高战备状态

美国航母出动！伊朗处于最高战备状态

每日经济新闻

2026-01-15 16:42:30

男人牢记：搞定女人的“千古定律”，就这三条，百试百灵！

男人牢记：搞定女人的“千古定律”，就这三条，百试百灵！

千秋文化

2026-01-14 21:05:03

AI产业主平台领航智能+时代

14342文章数 66499关注度

往期回顾全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器：委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器：委士兵跪倒在地吐血

体育要闻

聂卫平：黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世，冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价起售价4.88万

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

时尚

亲子

本地

军事航空

血常规3项异常，是身体警报！

年度最扎心电影，看得中年男女坐立难安

亲子要闻

爸爸妈妈必备的问题答案——这个世界没有鬼!因为孩子的认知和心理承受力太小了

本地新闻

云游内蒙｜黄沙与碧波撞色，乌海天生会“混搭”

军事要闻

美国已正式开始出售委内瑞拉石油

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版