网易首页 > 网易号 > 正文 申请入驻

改掉幻觉=杀死AI?Science曝光大模型「先天死穴」

0
分享至


新智元报道

编辑:元宇

【新智元导读】《Science》的一篇新文章指出,大模型存在一个先天难解的软肋:幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」,虽然有助于减少模型幻觉,但可能因此影响用户留存与活跃度,动摇商业根本。

就在OpenAI完成重组,解除上市限制的当天,《Science》一篇热文曝出大模型的一个先天致命软肋,这一软肋导致大模型难以彻底摆脱幻觉。


文章指出,虽然OpenAI完成了期待已久的重组,但它的核心产品仍会出现幻觉

以往我们经常将这种幻觉主要归因于训练数据质量,但这一解释并不充分。

上个月OpenAI与佐治亚理工学院的研究团队在一篇预印本论文中指出:

就像学生在考试遇到难题时会「蒙」答案一样,大模型在不确定的情况下也会倾向于「猜」,生成看似合理但其实错误的回答,而不是承认自己不知道。


论文:https://arxiv.org/abs/2509.04664《大模型为何会产生幻觉》

在不确定时选择「我不知道」,可显著降低幻觉,但为什么模型设计者们没有这么做?

研究人员认为问题主要出在大模型的训练和评估机制上:

在大模型的训练和评估过程中更倾向于「奖励猜测」,而不是「鼓励承认不确定性」。

但要改变这一点并不容易。

让大模型学会说「我不知道」,也可能动摇AI厂商的商业根基。

比如,有人就质疑OpenAI是否会真心让自家模型更重视「真实性」而不是「吸引力」。

这是一个极大的挑战。

如果ChatGPT经常回答「我不知道」,用户可能就会流失到竞争对手那里。

大模型幻觉为何难以根除?

「如果把幻觉彻底修好,将会杀死这个产品」。

谢菲尔德大学的AI研究员魏星曾发文称OpenAI的「反幻觉」方案会杀死ChatGPT。


OpenAI的研究人员认为幻觉并不神秘,他们分析了大模型在预训练阶段可能导致的错误,发现即使训练数据无误,预训练目标也可能使模型产生错误。


研究人员进一步指出,幻觉之所以在后续阶段持续存在,是因为主流评估体系的评分方式鼓励模型像学生考试一样去「猜」,而不是诚实地表达不确定性。

OpenAI曾探讨过幻觉难以根除的原因,认为其源头在于预训练的「下一个词预测」:模型通过学习海量文本,掌握如何根据统计规律预测下一个词。

但这种预测就像是囫囵吞枣,每个语句都没有通过「真/假」标签进行优化,当缺乏标记为错误的示例时,有效语句与无效语句的区分就显得尤为困难,因此会出现幻觉。

以图片识别举例,若数百万张猫狗照片被标注为「猫」或「狗」,算法便能可靠分类。

但如果改为按宠物生日标注照片,由于生日数据本质上随机,无论算法多么先进,此任务必然产生错误。

在语言模型的预训练中也存在类似机制。

比如拼写和括号遵循固定模式,因此随规模扩大错误会消失。

而像宠物生日这类任意低频事实无法仅凭模式预测,因此容易导致幻觉。

OpenAI澄清了几种关于模型「幻觉」的误解:

误解:提高准确率就能消除幻觉,因为100%准确的模型永远不会产生幻觉。

主张:准确率永远无法达到100%,因为无论模型规模、搜索能力或推理能力如何,某些现实世界的问题本质上无法解答。

误解:幻觉现象不可避免。

主张:并非如此,因为语言模型在不确定时可选择保持沉默。

误解:避免幻觉需要特定程度的智能,而这仅能通过大型模型实现。

主张:小型模型更易认知自身局限。例如面对毛利语问题时,不懂毛利语的小型模型可直接回应「我不知道」,而掌握部分毛利语的模型则需评估回答信心。

误解:幻觉是现代语言模型中神秘的故障现象。

主张:我们已理解幻觉产生的统计机制及其在评估中的奖励机制。

为什么大模型「刷榜」难杜绝?

OpenAI官方博客在介绍这篇论文时,将幻觉描述为「看似合理却错误的陈述」。


博客:https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

而且幻觉的出现具有不可预知性,它可能以出人意料的方式出现。

比如,你询问一篇论文的标题,它会自信地给出三个不同答案,但都是错误的。

该论文的合著者、OpenAI研究科学家Adam Kalai认为,虽然我们永远不可能做到100%准确,但这并不意味着模型必须要产生幻觉。

解决之道可以在「后训练」阶段,借助人类反馈和其他微调(fine-tuning)方法会引导模型变得更安全、更精确。

但这也会导致大模型「刷榜」的现象:

由于模型表现会通过标准化基准测试来评分,得分高就意味着名气和商业成功,于是公司就往往将训练目标锁定在「刷高分」上。

OpenAI认为,幻觉现象持续存在,部分原因在于当前评估方法设置了错误的激励机制。

研究人员分析了十大热门基准测试中,有九个都采用「答对得1分,空白或错误得0分」的二元评分方式,只有WildBench的评分标准为1–10分制。

虽然回答「我不知道」可能被认为比「严重幻觉但看起来合理的回答」略好,但总体上仍会被评为低于「勉强合格」的回答。

这意味着IDK(我不知道)在该基准下可能得到部分分数,但不会被视为优选策略。


在这种评分机制下,由于「随意猜测」和「不答」惩罚相同,那些喜欢「不懂装懂」的模型,反而会被谨慎回答「我不知道」的模型更容易拿高分。

举个例子,假设大模型被问及某人生日但却不知答案,如果随便猜一天,就会有1/365的概率猜中,而说「不知道」则必然得零分。

如果在数千道测试题中,这种猜测型模型最终在评分机制中的表现会优于承认不确定性的谨慎模型。

Kalai推测,这可能正是过去防幻觉方案迟迟无法落地的原因。

为什么准确率得分越高

幻觉也可能越大

针对唯一「正确答案」的纯客观问题,OpenAI将模型的回复分为三类:准确回复、错误回复以及不妄加猜测的弃权。

OpenAI认为「弃权」体现了谦逊,并将之视为核心价值观。


就准确性而言,前代o4-mini模型表现略胜一筹,然而其错误率(即产生幻觉的概率)显著更高。

这说明,在不确定时采取策略性猜测虽能提升准确率,却会增加错误和幻觉的发生。

OpenAI认为仅以准确率为标准的评分机制仍主导着模型评估体系,促使开发人员倾向于构建盲目猜测而非保留不确定性的模型:

「这正是模型虽然日益进步但仍会产生幻觉,即自信给出错误答案而非承认不确定性的重要原因」。

因此,OpenAI的研究团队呼吁重新设计评分机制,让错误猜测受到惩罚,从而让模型在「碰壁中学会谦虚」。

即使好意的调整

也可能引发反效果

普林斯顿大学计算机科学家、SWE-Bench基准创建者Carlos Jimenez认为想要改评分标准并不容易。

因为不同主题领域都有独特的评估方式,「每个学科在衡量不确定性或信心时都有自己的标准。」

此外,也有学者担心好意的调整也可能引发反效果。

伊利诺伊大学厄巴纳-香槟分校的计算机科学家彭昊警告说,鼓励模型说「我不知道」与当前优化大模型「自信度」的做法一样,也可能带来新的幻觉。

他略带悲观地指出,目前恐怕没有任何数据或指标能自然地解决幻觉问题,因为这些模型「太擅长钻系统的空子了」。

模型幻觉并非单纯的数据问题,而是训练机制、评测体系与商业模式综合因素导致的结果。

在技术层面,研究者普遍认为幻觉无法彻底根除,只能被缓解;

在商业层面,若模型频繁回答「我不知道」,用户体验与留存率都可能下降。

当前,以OpenAI、Anthropic为代表的AI初创公司都面临着巨大的盈利压力,在让模型更真实和更有吸引力之间,没有公司愿意冒着失掉用户的风险,率先牺牲吸引力,因为这很可能将用户推向那些看起来更「自信」的竞争者。

但是从AI技术的进步来看,让AI学会说「我不知道」有助于减少幻觉,推动模型向更成熟的方向进化。

参考资料:

https://www.science.org/content/article/ai-hallucinates-because-it-s-trained-fake-answers-it-doesn-t-know%20

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

Emily说个球
2026-03-26 15:11:29
张雪峰经典名言 100 条(完整版)

张雪峰经典名言 100 条(完整版)

新浪财经
2026-03-25 06:17:25
张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

大运河时空
2026-03-25 15:15:03
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

铭记历史呀
2026-03-26 11:22:56
缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

椰黄娱乐
2026-03-24 11:36:57
立陶宛请求访华,当面向中方认错?中方已开出条件,做不到就免谈

立陶宛请求访华,当面向中方认错?中方已开出条件,做不到就免谈

临云史策
2026-03-25 21:59:37
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

清茶浅谈
2025-09-07 23:32:29
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
小摩:降三花智控目标价至42港元 维持“增持”评级

小摩:降三花智控目标价至42港元 维持“增持”评级

财联社
2026-03-26 16:05:03
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

白面书誏
2026-03-24 14:41:16
事关美国对伊朗动武,外媒最新爆料

事关美国对伊朗动武,外媒最新爆料

环球时报国际
2026-03-25 15:21:08
黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

有范又有料
2026-03-26 16:07:15
国家机密,洲际导弹的制造方法

国家机密,洲际导弹的制造方法

远方青木
2026-03-25 23:55:16
为啥萨哈夫能放生,革命卫队发言人必须被斩首

为啥萨哈夫能放生,革命卫队发言人必须被斩首

移光幻影
2026-03-21 10:13:06
2026-03-26 19:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
房产
亲子
本地
公开课

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

这就是引导型老师的厉害吗?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版