网易首页 > 网易号 > 正文 申请入驻

【人工智能】为什么 AI 会更频繁地出现幻觉?我们该如何阻止它?

0
分享至

引言OpenAI 最先进的推理模型比以往任何时候都更加智能,但它也比以前的模型产生更多的幻觉。

人工智能(AI)越先进,就越容易产生“幻觉”,提供不正确、不准确的信息。

OpenAI 的研究发现,其最新、最强大的推理模型 o3 和 o4-mini 在 OpenAI PersonQA 基准测试中,分别有 33% 和 48% 的时间出现幻觉。这一比例是旧版 o1 模型的两倍多。虽然 o3 比其前代模型提供了更准确的信息,但似乎也带来了更多不准确的幻觉。

美国电气和电子工程师协会 (IEEE) 成员、奇点大学人工智能伦理工程师埃莉诺·沃森(Eleanor Watson)表示,这引发了人们对人工智能聊天机器人等大型语言模型 (LLM) 的准确性和可靠性的担忧。

沃森表示:“当系统以与准确内容相同的流畅性和连贯性输出虚假信息(例如虚构的事实、引文或事件)时,它可能会以微妙且重要的方式误导用户。”

专家表示,幻觉问题凸显了在使用法学硕士和推理模型时仔细评估和监督人工智能系统产生的信息的必要性。

01

人工智能会梦见电子羊吗?

推理模型的关键在于,它能够处理复杂的任务,本质上是将任务分解成各个组成部分,并提出解决方案。推理模型并非试图根据统计概率得出答案,而是像人类的思维方式一样,提出解决问题的策略。

摄取的僵化数据的限制。

“需要注意的是,幻觉是人工智能的一个特性,而不是一个缺陷,” Vectra AI 的人工智能研究员Sohrob Kazerounian表示。“套用我一位同事的话来说,‘LLM输出的所有内容都是幻觉。只是其中一些幻觉是真实的。’如果人工智能只生成它在训练期间看到的逐字输出,那么整个人工智能系统就会沦为一个巨大的搜索问题。”

你只能生成以前写过的计算机代码,找到那些特性已经被研究和描述过的蛋白质和分子,并回答以前提出过的家庭作业问题。然而,你却不能要求LLM为一张聚焦人工智能奇点的概念专辑写歌词,融合史努比狗狗和鲍勃·迪伦的歌词风格。

实际上,LLM及其所驱动的人工智能系统需要通过产生幻觉来创造,而不是简单地提供现有信息。从概念上讲,这与人类在产生新想法时做梦或想象场景的方式类似。

02

想太多不合常规的事情

然而,人工智能幻觉在提供准确和正确的信息时存在问题,特别是当用户在没有任何检查或监督的情况下轻信信息时。

沃森表示:“在决策依赖于事实准确性的领域,例如医学、法律或金融,这个问题尤其成问题。虽然更先进的模型或许可以降低明显事实错误的发生频率,但这个问题仍然以更微妙的形式存在。随着时间的推移,虚构行为会削弱人们对人工智能系统作为可靠工具的认知,并且如果根据未经验证的内容采取行动,可能会造成重大损害。”

随着人工智能的进步,这个问题似乎会愈演愈烈。“随着模型能力的提升,错误往往变得不那么明显,但却更难被发现,”沃森指出。“捏造的内容越来越多地嵌入似是而非的叙述和连贯的推理链中。这带来了一个特殊的风险:用户可能没有意识到错误的存在,并可能将输出视为确定的,而实际上并非如此。问题从过滤粗略的错误转变为识别细微的扭曲,而这些扭曲可能只有在仔细审查后才会显现出来。”

Kazerounian 支持这一观点。“尽管人们普遍认为,人工智能的幻觉问题能够并且会随着时间的推移而得到改善,但看起来最新一代的高级推理模型实际上可能已经开始比其更简单的模型产生更多的幻觉——而对于其中的原因,目前还没有统一的解释,”他说。

情况变得更加复杂,因为很难确定LLM是如何得出答案的;这与我们仍然不完全了解人类大脑是如何工作的类似。

人工智能公司 Anthropic 的首席执行官达里奥·阿莫迪 (Dario Amodei)在最近的一篇文章中强调,人们对人工智能如何得出答案和信息缺乏理解。他写道:“当生成式人工智能系统执行某些操作时,例如总结一份财务文件,我们无法在具体或精确的层面上了解它为什么做出这样的选择——为什么它会选择某些词语而不是其他词语,或者为什么它偶尔会犯一些通常很准确的错误。”

Kazerounian 指出,人工智能产生虚假信息所造成的问题已经非常现实。“目前还没有通用的、可验证的方法,让LLM能够正确回答关于其所访问数据集的问题,”他说道。“虚假的推荐信、面向客户的聊天机器人编造公司政策等等,现在已经屡见不鲜。”

03

粉碎梦想

Kazerounian 和 Watson 都向 Live Science 表示,最终 AI 的幻觉可能难以消除。但或许有办法缓解这个问题。

沃森提出,“检索增强生成”将模型的输出建立在精心挑选的外部知识源上,可以帮助确保人工智能产生的信息以可验证的数据为基础。

“另一种方法是将结构引入模型的推理中。通过促使模型检查自身的输出、比较不同的观点或遵循逻辑步骤,支架式推理框架可以降低无约束推测的风险并提高一致性。”沃森指出,可以通过训练来塑造一个优先考虑准确性的模型,并通过人工或人工智能评估员的强化训练来鼓励LLM提供更有条理、更有根据的答案。

“最终,系统可以被设计成能够识别自身的不确定性。与其默认给出自信的答案,不如教会模型在不确定时做出标记,或在适当的时候听从人类的判断,”沃森补充道。“虽然这些策略并不能完全消除虚构的风险,但它们为提高人工智能输出的可靠性提供了一条切实可行的途径。”

鉴于人工智能的幻觉几乎不可能消除,尤其是在高级模型中,Kazerounian 得出结论,最终我们需要以“对待人类同行同样的怀疑态度”来对待LLM产生的信息。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-06-13

2025-06-12

2025-06-11

商业赞助

点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:刚刚五部门发声,金融法案征求意见,下周一散户走还是留?

A股:刚刚五部门发声,金融法案征求意见,下周一散户走还是留?

夜深爱杂谈
2026-03-21 18:44:14
何立峰会见跨国公司负责人

何立峰会见跨国公司负责人

新京报
2026-03-21 20:42:15
党毅飞半目击败申真谞,对小申信心的打击是巨大的

党毅飞半目击败申真谞,对小申信心的打击是巨大的

月满大江流
2026-03-21 11:16:07
已故演员方·基默将用AI重返荧幕:曾主演电影《永远的蝙蝠侠》

已故演员方·基默将用AI重返荧幕:曾主演电影《永远的蝙蝠侠》

快科技
2026-03-19 17:13:06
油车降费电车缴费,2026年公路税费大改,你的车一年到底亏没亏?

油车降费电车缴费,2026年公路税费大改,你的车一年到底亏没亏?

番外行
2026-02-26 19:43:18
击落3架美军F-15E的科威特飞行员,因多项罪名已被逮捕

击落3架美军F-15E的科威特飞行员,因多项罪名已被逮捕

碳基生物关怀组织
2026-03-17 22:35:07
爸妈!真的不要再往马桶里倒水了!

爸妈!真的不要再往马桶里倒水了!

家居设计师宅哥
2026-03-08 18:21:44
九连胜!上海久事男篮主场大胜四川队

九连胜!上海久事男篮主场大胜四川队

上观新闻
2026-03-21 21:46:04
北京这夜:章子怡脸肿撞脸倪萍,刘浩存好土 周冬雨靠几百裙子出

北京这夜:章子怡脸肿撞脸倪萍,刘浩存好土 周冬雨靠几百裙子出

卷史
2026-03-21 19:54:29
金价突发惊人暴跌!

金价突发惊人暴跌!

江南晚报
2026-03-21 12:14:00
3月20日,预涨飙至2000元/吨,下周部分95汽油或进入“十元时代”

3月20日,预涨飙至2000元/吨,下周部分95汽油或进入“十元时代”

猪友巴巴
2026-03-20 15:25:03
近5战场均19+13+3帽兑现天赋!杨瀚森太难了,戈贝尔来了也得替补

近5战场均19+13+3帽兑现天赋!杨瀚森太难了,戈贝尔来了也得替补

你的篮球频道
2026-03-21 13:21:16
中国政府中东问题特使翟隽会见伊朗驻华大使法兹里

中国政府中东问题特使翟隽会见伊朗驻华大使法兹里

新京报
2026-03-20 19:36:18
60岁当太奶奶,40岁当奶奶!上海财经博主称,这四世同堂令人羡慕

60岁当太奶奶,40岁当奶奶!上海财经博主称,这四世同堂令人羡慕

火山詩话
2026-03-20 09:20:56
别以为巡视是形式!在重庆这一仗,打得彻底、改得坚决

别以为巡视是形式!在重庆这一仗,打得彻底、改得坚决

天气观察站
2026-03-21 19:28:04
汪宝大名终定,全家三代投票折中,小菲的坚持戳中无数家长

汪宝大名终定,全家三代投票折中,小菲的坚持戳中无数家长

一口娱乐
2026-03-21 13:38:21
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
美日签完字还没离开,特朗普就已告知中方,高市要找一条退路

美日签完字还没离开,特朗普就已告知中方,高市要找一条退路

蓝色海边
2026-03-21 19:32:33
台湾中天主持人卢秀芳第三重身份曝光:父亲是志愿军,被迫到台湾

台湾中天主持人卢秀芳第三重身份曝光:父亲是志愿军,被迫到台湾

傲傲讲历史
2026-03-21 03:44:26
智能麻将桌杀到:传统麻将馆真的要被“取代”了?

智能麻将桌杀到:传统麻将馆真的要被“取代”了?

生活新鲜市
2026-03-20 06:28:56
2026-03-21 22:04:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

军事专家推演美军夺取哈尔克岛的三种可能:步步惊心

头条要闻

军事专家推演美军夺取哈尔克岛的三种可能:步步惊心

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

艺术
房产
教育
旅游
军事航空

艺术要闻

法国女人就这样诱惑了全世界的男人...

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

教育要闻

重磅!育才蛇口更名“育才一中”,独家分析“变”与“不变”

旅游要闻

现实版“千里江山图”原来出自雅安名山

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版