网易首页 > 网易号 > 正文 申请入驻

【人工智能】为什么 AI 会更频繁地出现幻觉?我们该如何阻止它?

0
分享至


引言OpenAI 最先进的推理模型比以往任何时候都更加智能,但它也比以前的模型产生更多的幻觉。


人工智能(AI)越先进,就越容易产生“幻觉”,提供不正确、不准确的信息。

OpenAI 的研究发现,其最新、最强大的推理模型 o3 和 o4-mini 在 OpenAI PersonQA 基准测试中,分别有 33% 和 48% 的时间出现幻觉。这一比例是旧版 o1 模型的两倍多。虽然 o3 比其前代模型提供了更准确的信息,但似乎也带来了更多不准确的幻觉。

美国电气和电子工程师协会 (IEEE) 成员、奇点大学人工智能伦理工程师埃莉诺·沃森(Eleanor Watson)表示,这引发了人们对人工智能聊天机器人等大型语言模型 (LLM) 的准确性和可靠性的担忧。

沃森表示:“当系统以与准确内容相同的流畅性和连贯性输出虚假信息(例如虚构的事实、引文或事件)时,它可能会以微妙且重要的方式误导用户。”

专家表示,幻觉问题凸显了在使用法学硕士和推理模型时仔细评估和监督人工智能系统产生的信息的必要性。

01

人工智能会梦见电子羊吗?

推理模型的关键在于,它能够处理复杂的任务,本质上是将任务分解成各个组成部分,并提出解决方案。推理模型并非试图根据统计概率得出答案,而是像人类的思维方式一样,提出解决问题的策略。


摄取的僵化数据的限制。

“需要注意的是,幻觉是人工智能的一个特性,而不是一个缺陷,” Vectra AI 的人工智能研究员Sohrob Kazerounian表示。“套用我一位同事的话来说,‘LLM输出的所有内容都是幻觉。只是其中一些幻觉是真实的。’如果人工智能只生成它在训练期间看到的逐字输出,那么整个人工智能系统就会沦为一个巨大的搜索问题。”

你只能生成以前写过的计算机代码,找到那些特性已经被研究和描述过的蛋白质和分子,并回答以前提出过的家庭作业问题。然而,你却不能要求LLM为一张聚焦人工智能奇点的概念专辑写歌词,融合史努比狗狗和鲍勃·迪伦的歌词风格。

实际上,LLM及其所驱动的人工智能系统需要通过产生幻觉来创造,而不是简单地提供现有信息。从概念上讲,这与人类在产生新想法时做梦或想象场景的方式类似。

02

想太多不合常规的事情

然而,人工智能幻觉在提供准确和正确的信息时存在问题,特别是当用户在没有任何检查或监督的情况下轻信信息时。


沃森表示:“在决策依赖于事实准确性的领域,例如医学、法律或金融,这个问题尤其成问题。虽然更先进的模型或许可以降低明显事实错误的发生频率,但这个问题仍然以更微妙的形式存在。随着时间的推移,虚构行为会削弱人们对人工智能系统作为可靠工具的认知,并且如果根据未经验证的内容采取行动,可能会造成重大损害。”

随着人工智能的进步,这个问题似乎会愈演愈烈。“随着模型能力的提升,错误往往变得不那么明显,但却更难被发现,”沃森指出。“捏造的内容越来越多地嵌入似是而非的叙述和连贯的推理链中。这带来了一个特殊的风险:用户可能没有意识到错误的存在,并可能将输出视为确定的,而实际上并非如此。问题从过滤粗略的错误转变为识别细微的扭曲,而这些扭曲可能只有在仔细审查后才会显现出来。”

Kazerounian 支持这一观点。“尽管人们普遍认为,人工智能的幻觉问题能够并且会随着时间的推移而得到改善,但看起来最新一代的高级推理模型实际上可能已经开始比其更简单的模型产生更多的幻觉——而对于其中的原因,目前还没有统一的解释,”他说。

情况变得更加复杂,因为很难确定LLM是如何得出答案的;这与我们仍然不完全了解人类大脑是如何工作的类似。

人工智能公司 Anthropic 的首席执行官达里奥·阿莫迪 (Dario Amodei)在最近的一篇文章中强调,人们对人工智能如何得出答案和信息缺乏理解。他写道:“当生成式人工智能系统执行某些操作时,例如总结一份财务文件,我们无法在具体或精确的层面上了解它为什么做出这样的选择——为什么它会选择某些词语而不是其他词语,或者为什么它偶尔会犯一些通常很准确的错误。”

Kazerounian 指出,人工智能产生虚假信息所造成的问题已经非常现实。“目前还没有通用的、可验证的方法,让LLM能够正确回答关于其所访问数据集的问题,”他说道。“虚假的推荐信、面向客户的聊天机器人编造公司政策等等,现在已经屡见不鲜。”

03

粉碎梦想

Kazerounian 和 Watson 都向 Live Science 表示,最终 AI 的幻觉可能难以消除。但或许有办法缓解这个问题。


沃森提出,“检索增强生成”将模型的输出建立在精心挑选的外部知识源上,可以帮助确保人工智能产生的信息以可验证的数据为基础。

“另一种方法是将结构引入模型的推理中。通过促使模型检查自身的输出、比较不同的观点或遵循逻辑步骤,支架式推理框架可以降低无约束推测的风险并提高一致性。”沃森指出,可以通过训练来塑造一个优先考虑准确性的模型,并通过人工或人工智能评估员的强化训练来鼓励LLM提供更有条理、更有根据的答案。

“最终,系统可以被设计成能够识别自身的不确定性。与其默认给出自信的答案,不如教会模型在不确定时做出标记,或在适当的时候听从人类的判断,”沃森补充道。“虽然这些策略并不能完全消除虚构的风险,但它们为提高人工智能输出的可靠性提供了一条切实可行的途径。”

鉴于人工智能的幻觉几乎不可能消除,尤其是在高级模型中,Kazerounian 得出结论,最终我们需要以“对待人类同行同样的怀疑态度”来对待LLM产生的信息。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-06-13

2025-06-12

2025-06-11

商业赞助


点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iOS26和iOS18.7同时发布,哪个版本更值得更新?

iOS26和iOS18.7同时发布,哪个版本更值得更新?

果粉易查
2025-09-16 16:34:46
“玉米是所有粗粮里最会骗人的”,网友:天塌了,每天都让老公吃

“玉米是所有粗粮里最会骗人的”,网友:天塌了,每天都让老公吃

另子维爱读史
2025-09-08 21:29:22
空调书记戴源往事

空调书记戴源往事

城市局
2025-09-15 01:16:07
全程31分钟!广州南一站直达白云机场!广东城际8大新交路出炉!

全程31分钟!广州南一站直达白云机场!广东城际8大新交路出炉!

娱乐圈见解说
2025-09-16 13:50:02
当雨果输掉决赛后,谁注意到王皓举动?看来他只是不喜欢张本而已

当雨果输掉决赛后,谁注意到王皓举动?看来他只是不喜欢张本而已

十点街球体育
2025-09-15 20:10:53
美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

李哥三观很正
2024-08-18 12:56:18
马云预言成真?2026年,手握存款的人,或将面临三大挑战

马云预言成真?2026年,手握存款的人,或将面临三大挑战

靓仔情感
2025-09-14 21:01:14
有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

会计人
2025-09-13 23:50:39
后续!这就是西贝的真实水平,厨师不但会炒菜还会擦锅边灶台。

后续!这就是西贝的真实水平,厨师不但会炒菜还会擦锅边灶台。

花心电影
2025-09-16 11:03:21
欧冠积分排行:皇仁萨前三断层领先,曼联第4,阿森纳第9红军第10

欧冠积分排行:皇仁萨前三断层领先,曼联第4,阿森纳第9红军第10

直播吧
2025-09-16 18:01:08
英媒:瓜帅认为刘易斯防守存在短板,准备让胡桑诺夫踢右后卫

英媒:瓜帅认为刘易斯防守存在短板,准备让胡桑诺夫踢右后卫

雷速体育
2025-09-16 17:33:10
罗永浩突然收手,西贝更危险了

罗永浩突然收手,西贝更危险了

清唱
2025-09-16 17:03:37
美国就算一动不动,中国20年也追不上?九三阅兵后,局势已被改写

美国就算一动不动,中国20年也追不上?九三阅兵后,局势已被改写

书中自有颜如玉
2025-09-10 10:41:55
曾攀附省委原书记的杨慧,敛财超5448万

曾攀附省委原书记的杨慧,敛财超5448万

政知新媒体
2025-09-16 16:12:08
演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

阿纂看事
2025-07-25 17:12:19
篮协书记对中国男篮所要求的3项数据,让主教练郭士强的心凉半截

篮协书记对中国男篮所要求的3项数据,让主教练郭士强的心凉半截

王衜晓
2025-09-16 18:59:44
这种国家才配叫铁哥们!欠中国81亿全额还清,附赠百亿能源大礼!

这种国家才配叫铁哥们!欠中国81亿全额还清,附赠百亿能源大礼!

基斯默默
2025-09-15 12:04:03
89%到58%!中国台湾企业加速把生产线搬出大陆?

89%到58%!中国台湾企业加速把生产线搬出大陆?

随波荡漾的漂流瓶
2025-09-16 16:45:07
黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

娱圈小愚
2025-09-16 08:59:12
买房人快被逼疯了!

买房人快被逼疯了!

地产观点
2025-09-15 07:32:42
2025-09-16 21:00:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
1708文章数 91关注度
往期回顾 全部

科技要闻

理想i6定档9月26日发布,定位纯电五座SUV

头条要闻

清华学霸小红书晒1.67亿元年薪被查 美司法部:他在逃

头条要闻

清华学霸小红书晒1.67亿元年薪被查 美司法部:他在逃

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

汽车要闻

650km续航 广汽埃安AION RT焕新款9月22日上市

态度原创

健康
时尚
本地
数码
旅游

内分泌科专家破解身高八大谣言

50岁阿姨也能穿得亮眼高级,这些搭配的技巧请收好,特别实用

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

数码要闻

酷比魔方预热 iPlay 70 Max Pro 5G 平板:13 英寸屏、展锐 S715

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

无障碍浏览 进入关怀版