网易首页 > 网易号 > 正文 申请入驻

【人工智能】为什么 AI 会更频繁地出现幻觉?我们该如何阻止它?

0
分享至

引言OpenAI 最先进的推理模型比以往任何时候都更加智能,但它也比以前的模型产生更多的幻觉。

人工智能(AI)越先进,就越容易产生“幻觉”,提供不正确、不准确的信息。

OpenAI 的研究发现,其最新、最强大的推理模型 o3 和 o4-mini 在 OpenAI PersonQA 基准测试中,分别有 33% 和 48% 的时间出现幻觉。这一比例是旧版 o1 模型的两倍多。虽然 o3 比其前代模型提供了更准确的信息,但似乎也带来了更多不准确的幻觉。

美国电气和电子工程师协会 (IEEE) 成员、奇点大学人工智能伦理工程师埃莉诺·沃森(Eleanor Watson)表示,这引发了人们对人工智能聊天机器人等大型语言模型 (LLM) 的准确性和可靠性的担忧。

沃森表示:“当系统以与准确内容相同的流畅性和连贯性输出虚假信息(例如虚构的事实、引文或事件)时,它可能会以微妙且重要的方式误导用户。”

专家表示,幻觉问题凸显了在使用法学硕士和推理模型时仔细评估和监督人工智能系统产生的信息的必要性。

01

人工智能会梦见电子羊吗?

推理模型的关键在于,它能够处理复杂的任务,本质上是将任务分解成各个组成部分,并提出解决方案。推理模型并非试图根据统计概率得出答案,而是像人类的思维方式一样,提出解决问题的策略。

摄取的僵化数据的限制。

“需要注意的是,幻觉是人工智能的一个特性,而不是一个缺陷,” Vectra AI 的人工智能研究员Sohrob Kazerounian表示。“套用我一位同事的话来说,‘LLM输出的所有内容都是幻觉。只是其中一些幻觉是真实的。’如果人工智能只生成它在训练期间看到的逐字输出,那么整个人工智能系统就会沦为一个巨大的搜索问题。”

你只能生成以前写过的计算机代码,找到那些特性已经被研究和描述过的蛋白质和分子,并回答以前提出过的家庭作业问题。然而,你却不能要求LLM为一张聚焦人工智能奇点的概念专辑写歌词,融合史努比狗狗和鲍勃·迪伦的歌词风格。

实际上,LLM及其所驱动的人工智能系统需要通过产生幻觉来创造,而不是简单地提供现有信息。从概念上讲,这与人类在产生新想法时做梦或想象场景的方式类似。

02

想太多不合常规的事情

然而,人工智能幻觉在提供准确和正确的信息时存在问题,特别是当用户在没有任何检查或监督的情况下轻信信息时。

沃森表示:“在决策依赖于事实准确性的领域,例如医学、法律或金融,这个问题尤其成问题。虽然更先进的模型或许可以降低明显事实错误的发生频率,但这个问题仍然以更微妙的形式存在。随着时间的推移,虚构行为会削弱人们对人工智能系统作为可靠工具的认知,并且如果根据未经验证的内容采取行动,可能会造成重大损害。”

随着人工智能的进步,这个问题似乎会愈演愈烈。“随着模型能力的提升,错误往往变得不那么明显,但却更难被发现,”沃森指出。“捏造的内容越来越多地嵌入似是而非的叙述和连贯的推理链中。这带来了一个特殊的风险:用户可能没有意识到错误的存在,并可能将输出视为确定的,而实际上并非如此。问题从过滤粗略的错误转变为识别细微的扭曲,而这些扭曲可能只有在仔细审查后才会显现出来。”

Kazerounian 支持这一观点。“尽管人们普遍认为,人工智能的幻觉问题能够并且会随着时间的推移而得到改善,但看起来最新一代的高级推理模型实际上可能已经开始比其更简单的模型产生更多的幻觉——而对于其中的原因,目前还没有统一的解释,”他说。

情况变得更加复杂,因为很难确定LLM是如何得出答案的;这与我们仍然不完全了解人类大脑是如何工作的类似。

人工智能公司 Anthropic 的首席执行官达里奥·阿莫迪 (Dario Amodei)在最近的一篇文章中强调,人们对人工智能如何得出答案和信息缺乏理解。他写道:“当生成式人工智能系统执行某些操作时,例如总结一份财务文件,我们无法在具体或精确的层面上了解它为什么做出这样的选择——为什么它会选择某些词语而不是其他词语,或者为什么它偶尔会犯一些通常很准确的错误。”

Kazerounian 指出,人工智能产生虚假信息所造成的问题已经非常现实。“目前还没有通用的、可验证的方法,让LLM能够正确回答关于其所访问数据集的问题,”他说道。“虚假的推荐信、面向客户的聊天机器人编造公司政策等等,现在已经屡见不鲜。”

03

粉碎梦想

Kazerounian 和 Watson 都向 Live Science 表示,最终 AI 的幻觉可能难以消除。但或许有办法缓解这个问题。

沃森提出,“检索增强生成”将模型的输出建立在精心挑选的外部知识源上,可以帮助确保人工智能产生的信息以可验证的数据为基础。

“另一种方法是将结构引入模型的推理中。通过促使模型检查自身的输出、比较不同的观点或遵循逻辑步骤,支架式推理框架可以降低无约束推测的风险并提高一致性。”沃森指出,可以通过训练来塑造一个优先考虑准确性的模型,并通过人工或人工智能评估员的强化训练来鼓励LLM提供更有条理、更有根据的答案。

“最终,系统可以被设计成能够识别自身的不确定性。与其默认给出自信的答案,不如教会模型在不确定时做出标记,或在适当的时候听从人类的判断,”沃森补充道。“虽然这些策略并不能完全消除虚构的风险,但它们为提高人工智能输出的可靠性提供了一条切实可行的途径。”

鉴于人工智能的幻觉几乎不可能消除,尤其是在高级模型中,Kazerounian 得出结论,最终我们需要以“对待人类同行同样的怀疑态度”来对待LLM产生的信息。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-06-13

2025-06-12

2025-06-11

商业赞助

点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
菜市场泡“药水”的7种蔬菜,业内人从不食用,普通人却天天买

菜市场泡“药水”的7种蔬菜,业内人从不食用,普通人却天天买

复转这些年
2026-05-21 19:34:04
人社部、财政部关于2026年调整退休人员养老金通知正式公布了吗

人社部、财政部关于2026年调整退休人员养老金通知正式公布了吗

云鹏叙事
2026-05-26 19:54:56
突然爆发!2000亿巨头,午后涨停

突然爆发!2000亿巨头,午后涨停

证券时报
2026-05-26 17:40:36
开国中将临死前告诉儿子:我的军衔不是陈毅争来的

开国中将临死前告诉儿子:我的军衔不是陈毅争来的

芳芳历史烩
2026-05-26 21:39:39
消失已久的陈宝国,现状曝光令人心酸,43岁的儿子成他心病

消失已久的陈宝国,现状曝光令人心酸,43岁的儿子成他心病

枫尘余往逝
2026-05-25 23:03:25
英国遭到拒绝后发出警告,中国若不合作,中企海外资产将被没收!

英国遭到拒绝后发出警告,中国若不合作,中企海外资产将被没收!

冷眼看尽世间繁华
2026-04-05 03:49:18
摇滚主唱官宣出柜:我是骄傲的男同性恋

摇滚主唱官宣出柜:我是骄傲的男同性恋

影视情报室
2026-05-26 00:58:44
乐极生悲,莫斯科斯巴达球员在夺得俄罗斯杯庆祝时不慎打碎奖杯

乐极生悲,莫斯科斯巴达球员在夺得俄罗斯杯庆祝时不慎打碎奖杯

懂球帝
2026-05-26 00:52:34
深夜,美股拉升!原油飙涨,黄金、白银下挫!美伊谈判,传来大消息

深夜,美股拉升!原油飙涨,黄金、白银下挫!美伊谈判,传来大消息

证券时报e公司
2026-05-26 22:31:38
48小时内两架中国战机坠毁,巴方称非人为失误

48小时内两架中国战机坠毁,巴方称非人为失误

猫女的小树屋
2026-05-25 22:58:26
62岁名嘴自曝:超模曾点名想和他上床

62岁名嘴自曝:超模曾点名想和他上床

自愈小日子
2026-05-24 00:55:16
两任国防部长判死缓,今天不得不提这个人了。

两任国防部长判死缓,今天不得不提这个人了。

华人星光
2026-05-08 11:04:21
野史也不敢这么野啊!

野史也不敢这么野啊!

我是历史其实挺有趣
2026-05-26 09:41:15
方媛状态不对劲!被怀疑产后抑郁,对外沟通困难像极了重度解离

方媛状态不对劲!被怀疑产后抑郁,对外沟通困难像极了重度解离

萌神木木
2026-05-26 13:59:49
确实有“妈味儿”!可身材装个少女还是没问题的

确实有“妈味儿”!可身材装个少女还是没问题的

飛娱日记
2026-04-13 08:59:38
日本化工巨头押注先进封装新材料

日本化工巨头押注先进封装新材料

野生运营
2026-05-26 03:34:57
白景富同志逝世

白景富同志逝世

新京报政事儿
2026-05-26 18:20:45
确诊癌症后首次被拍!凡妮莎·特朗普现身商场,与19岁女儿凯同行

确诊癌症后首次被拍!凡妮莎·特朗普现身商场,与19岁女儿凯同行

世界王室那些事
2026-05-25 15:59:58
双色球第2026059期:中出一等奖3注,奖池累计11.39亿元

双色球第2026059期:中出一等奖3注,奖池累计11.39亿元

新浪财经
2026-05-26 22:37:00
中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

有范又有料
2026-03-05 09:22:10
2026-05-27 02:15:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

教育
本地
艺术
手机
时尚

教育要闻

不是知错了,是怕了!家长投诉老师,被老师起诉,哭着求老师谅解

本地新闻

用云锦的方式,打开江苏南京

艺术要闻

gmp新作:上海张江模力社区

手机要闻

荣耀600系列线下上手:体验之后,说说真实感受

蓝色系穿搭太适合夏天了!快来看看这些穿搭示范,美得不重样

无障碍浏览 进入关怀版