网易首页 > 网易号 > 正文 申请入驻

为何OpenAI解决AI幻觉的方案会扼杀明天的ChatGPT

0
分享至

OpenAI发布了一篇新论文,指出了ChatGPT为何容易虚构信息。不幸的是,这个问题可能无法解决。



OpenAI的最新研究论文精确诊断了ChatGPT及其他大型语言模型为何会"捏造事实" —— 在人工智能领域被称为"幻觉"。该论文也揭示了为何这个问题可能无法解决,至少对普通消费者而言是如此。

这篇论文为这些模型为何会自信地陈述虚假信息提供了迄今为止最严谨的数学解释。它表明,这不仅仅是当前AI训练方式带来的不幸副作用,而且在数学上是不可避免的。

这个问题部分可以归因于用于训练AI的基础数据中的错误。但通过对AI系统学习方式的数学分析,研究人员证明,即使使用完美的训练数据,问题依然存在。

语言模型通过基于概率预测句子中的一个接一个单词来回应查询 —— 这种方式自然会出错。研究人员实际上表明,生成句子的总错误率至少是同一个AI在简单是/否问题上错误率的两倍,因为错误会在多个预测中累积。

换言之,幻觉率从根本上受限于AI系统区分有效与无效回答的能力。由于这种分类问题对于许多知识领域来说本身就非常困难,因此幻觉变得不可避免。

研究还发现,模型在训练中看到一个事实的次数越少,当被问及相关问题时,它产生幻觉的可能性就越大。例如,以知名人物的生日为例,研究发现,如果20%的此类人物的生日在训练数据中仅出现一次,那么基础模型至少会答错20%的生日查询。

果不其然,当研究人员向最先进的模型询问论文作者之一Adam Kalai的生日时,DeepSeek-V3在几次独立的尝试中,自信地给出了三个不同的错误日期:"03-07"、"15-06"和"01-01"。而正确的日期在秋季,所以这些答案无一接近正确答案。

评估陷阱

更令人不安的是,论文分析了为何在后期训练努力(例如在AI向公众发布前,对其回答提供大量人类反馈)之后,幻觉依然存在。作者们检查了十个主要的AI基准测试,包括谷歌、OpenAI使用的那些,以及用于给AI模型排名的顶尖排行榜。结果发现,有九个基准测试使用二元评分系统,对表达不确定性的AI给予零分。

这造成了作者所称的惩罚诚实回答的"流行病"。当AI系统说"我不知道"时,它会得到与提供完全错误信息相同的分数。在这种评估体系下,最优策略变得显而易见:总是猜测。



研究人员从数学上证明了这一点。无论某个特定答案正确的几率是多少,在使用二元评分的评估中,猜测的期望得分总是超过弃答的得分。

会毁掉一切的解决方案

OpenAI提出的解决方案是,让AI在给出答案前评估其自身对该答案的置信度,并让基准测试在此基础上进行评分。例如,可以这样提示AI:"仅当你的置信度超过75%时才回答,因为错误答案会被扣3分,而正确答案只得1分。"

OpenAI研究人员的数学框架表明,在适当的置信度阈值下,AI系统会自然地表达不确定性而非猜测。这将导致更少的幻觉。问题在于这会对用户体验造成何种影响。

试想一下,如果ChatGPT开始对甚至30%的查询(这是基于论文对训练数据中事实不确定性的分析得出的保守估计)说"我不知道",会发生什么。习惯了几乎对所有问题都能得到自信回答的用户,很可能会迅速抛弃这样的系统。

我在生活的另一个领域见过类似问题。我参与了犹他州盐湖城的一个空气质量监测项目。当系统在恶劣天气条件或设备校准时标记测量不确定性时,用户参与度会低于显示确定读数的时候 —— 即使在验证过程中那些自信的读数被证明是不准确的。

计算经济学问题

利用论文的见解来减少幻觉并不困难。用于量化不确定性的成熟方法已存在数十年。这些方法可用于提供可信的不确定性估计,并指导AI做出更明智的选择。

但是,即使用户不喜欢这种不确定性的问题能够克服,还存在一个更大的障碍:计算经济学。具有不确定性意识的语言模型比当前的方法需要显著更多的计算量,因为它们必须评估多种可能的回答并估计置信水平。对于一个每天处理数百万次查询的系统而言,这意味着运营成本急剧增加。

更复杂的方法,如主动学习(AI系统通过提出澄清问题来减少不确定性),可以提高准确性,但会进一步倍增计算需求。此类方法在芯片设计等专业领域效果很好,因为在这些领域,错误答案的代价高达数百万美元,从而使得大量计算是合理的。但对于用户期望即时响应的消费级应用而言,其经济成本变得令人望而却步。



对于管理关键业务运营或经济基础设施的AI系统而言,这种权衡则截然不同。当AI代理处理供应链物流、金融交易或医疗诊断时,幻觉的成本远远超过让模型判断自身是否过于不确定所带来的开销。在这些领域,论文提出的解决方案在经济上变得可行 —— 甚至是必要的。具有不确定性的AI代理必然成本更高。

然而,消费级应用仍然主导着AI开发的优先级。用户想要的是能够对任何问题提供自信回答的系统。评估基准奖励的是那些猜测而非表达不确定性的系统。计算成本倾向于快速、过度自信的回答,而不是缓慢、不确定的回答。

每个token的能源成本下降和芯片架构的进步,或许最终会让AI决定自己是否足够确定来回答一个问题变得更为经济。但是,与当前的猜测方式相比,所需计算量相对较高的情况将依然存在,无论硬件绝对成本如何。

简而言之,OpenAI的论文不经意地揭示了一个令人不安的真相:驱动消费级AI发展的商业激励,从根本上仍然与减少幻觉的目标不一致。在这些激励改变之前,幻觉将持续存在。

如果朋友们喜欢,敬请关注“知新了了”!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胜天津发布会!许利民重提赛前针对+大胜意义,将麦基优势最大化

胜天津发布会!许利民重提赛前针对+大胜意义,将麦基优势最大化

篮球资讯达人
2026-03-16 23:44:43
全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

夕阳渡史人
2026-01-30 09:47:08
没油没电的夜晚,古巴全国半停摆,背后是谁在掐住命脉?

没油没电的夜晚,古巴全国半停摆,背后是谁在掐住命脉?

旧窗老街
2026-03-17 02:08:23
不整容的妈生脸有多惊艳:孙千郭晓婷颜值对比差异明显

不整容的妈生脸有多惊艳:孙千郭晓婷颜值对比差异明显

完善法
2026-03-17 01:26:13
瞿颖的翻红“语录”,不止10条,看的时候一定不要喝水

瞿颖的翻红“语录”,不止10条,看的时候一定不要喝水

我来我看见
2026-03-16 21:24:57
美国彻底慌了?!苹果CEO库克抛出惊人言论,振聋发聩!

美国彻底慌了?!苹果CEO库克抛出惊人言论,振聋发聩!

南权先生
2026-03-13 15:46:35
巴奴毛肚火锅:每月15号向行业无条件开放中央厨房,针对乱象将公开毛肚工艺全流程

巴奴毛肚火锅:每月15号向行业无条件开放中央厨房,针对乱象将公开毛肚工艺全流程

界面新闻
2026-03-16 16:01:13
51岁货车司机在砂石场升降车厢时触电身亡,亲属:上方有10千伏高压线,现场未见警示标识

51岁货车司机在砂石场升降车厢时触电身亡,亲属:上方有10千伏高压线,现场未见警示标识

极目新闻
2026-03-16 20:59:27
前国乒名将批评蒯曼:非常非常难受!不能接受这个结果 真不该输

前国乒名将批评蒯曼:非常非常难受!不能接受这个结果 真不该输

念洲
2026-03-16 08:24:28
三部长坐镇,中越当面摊开敏感议题,越方对华承诺不含半点水分

三部长坐镇,中越当面摊开敏感议题,越方对华承诺不含半点水分

蓝色海边
2026-03-17 00:05:15
女子24万多元“捡漏”709公里里程二手车,才发现该车贷款未结清,近两年无法过户,原车主仍可远程监控车辆

女子24万多元“捡漏”709公里里程二手车,才发现该车贷款未结清,近两年无法过户,原车主仍可远程监控车辆

极目新闻
2026-03-16 10:20:23
郑丽文访陆时间表出炉!赖清德一语震动两岸,幸亏大陆早有准备

郑丽文访陆时间表出炉!赖清德一语震动两岸,幸亏大陆早有准备

超喜欢我
2026-03-16 21:19:36
赖清德话音刚落,国台办就亮出13个字,让美国更难堪的事发生了

赖清德话音刚落,国台办就亮出13个字,让美国更难堪的事发生了

闻识
2026-03-17 03:22:17
张兰直播怒怼马筱梅!生完娃就要过亿豪宅,汪小菲买房?拿钢镚买

张兰直播怒怼马筱梅!生完娃就要过亿豪宅,汪小菲买房?拿钢镚买

观鱼听雨
2026-03-15 23:07:45
硒含量是洋葱的30倍,正大量上市!中老年人多吃它,手脚麻利。

硒含量是洋葱的30倍,正大量上市!中老年人多吃它,手脚麻利。

阿龙美食记
2026-01-25 14:20:28
刚提半年 Model Y 首次出险,特斯拉车主:维修费高得离谱,要 3.5 万元多

刚提半年 Model Y 首次出险,特斯拉车主:维修费高得离谱,要 3.5 万元多

新浪财经
2026-03-16 13:53:43
奉劝青岛西海岸一句,别碰郑智

奉劝青岛西海岸一句,别碰郑智

中场阴谋家
2026-03-17 00:19:24
“188套餐”拍写真结果花费3万,24岁女子离店3小时反悔 欲退款遭拒 商家:明码标价

“188套餐”拍写真结果花费3万,24岁女子离店3小时反悔 欲退款遭拒 商家:明码标价

红星新闻
2026-03-16 19:28:23
40万级新卷王!极氪8X 38分钟小订破万

40万级新卷王!极氪8X 38分钟小订破万

快科技
2026-03-16 22:13:12
以军称摧毁已故伊朗最高领袖曾使用的飞机

以军称摧毁已故伊朗最高领袖曾使用的飞机

北青网-北京青年报
2026-03-16 17:18:29
2026-03-17 04:07:00
知新了了
知新了了
专注于新知、科普的传播
5852文章数 2259关注度
往期回顾 全部

科技要闻

“龙虾”当道,五位养虾人探讨人类出路

头条要闻

马拉松冠军选手冲线时被拦停并强行带离赛道 本人发文

头条要闻

马拉松冠军选手冲线时被拦停并强行带离赛道 本人发文

体育要闻

那个送老奶奶去医院的球员 成了队史第一人

娱乐要闻

姚晨曹郁发离婚声明 多年前已结束婚姻

财经要闻

梁文锋推迟V4,是为根治龙虾的健忘症?

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

亲子
艺术
家居
房产
公开课

亲子要闻

便宜又好玩的吹龙,儿子可太喜欢了,每天都玩不够,吹气的同时还能锻炼口腔和气息# 早教游戏 # 亲子互...

艺术要闻

你绝对想不到,东方最美“腰精”的惊艳身材!

家居要闻

简约之美 尘埃落定

房产要闻

操作真强!保利三亚,十年腊肉盘,要大规模商改住了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版