引言OpenAI 最先进的推理模型比以往任何时候都更加智能,但它也比以前的模型产生更多的幻觉。
人工智能(AI)越先进,就越容易产生“幻觉”,提供不正确、不准确的信息。
OpenAI 的研究发现,其最新、最强大的推理模型 o3 和 o4-mini 在 OpenAI PersonQA 基准测试中,分别有 33% 和 48% 的时间出现幻觉。这一比例是旧版 o1 模型的两倍多。虽然 o3 比其前代模型提供了更准确的信息,但似乎也带来了更多不准确的幻觉。
美国电气和电子工程师协会 (IEEE) 成员、奇点大学人工智能伦理工程师埃莉诺·沃森(Eleanor Watson)表示,这引发了人们对人工智能聊天机器人等大型语言模型 (LLM) 的准确性和可靠性的担忧。
沃森表示:“当系统以与准确内容相同的流畅性和连贯性输出虚假信息(例如虚构的事实、引文或事件)时,它可能会以微妙且重要的方式误导用户。”
专家表示,幻觉问题凸显了在使用法学硕士和推理模型时仔细评估和监督人工智能系统产生的信息的必要性。
01
人工智能会梦见电子羊吗?
推理模型的关键在于,它能够处理复杂的任务,本质上是将任务分解成各个组成部分,并提出解决方案。推理模型并非试图根据统计概率得出答案,而是像人类的思维方式一样,提出解决问题的策略。
摄取的僵化数据的限制。
“需要注意的是,幻觉是人工智能的一个特性,而不是一个缺陷,” Vectra AI 的人工智能研究员Sohrob Kazerounian表示。“套用我一位同事的话来说,‘LLM输出的所有内容都是幻觉。只是其中一些幻觉是真实的。’如果人工智能只生成它在训练期间看到的逐字输出,那么整个人工智能系统就会沦为一个巨大的搜索问题。”
你只能生成以前写过的计算机代码,找到那些特性已经被研究和描述过的蛋白质和分子,并回答以前提出过的家庭作业问题。然而,你却不能要求LLM为一张聚焦人工智能奇点的概念专辑写歌词,融合史努比狗狗和鲍勃·迪伦的歌词风格。
实际上,LLM及其所驱动的人工智能系统需要通过产生幻觉来创造,而不是简单地提供现有信息。从概念上讲,这与人类在产生新想法时做梦或想象场景的方式类似。
02
想太多不合常规的事情
然而,人工智能幻觉在提供准确和正确的信息时存在问题,特别是当用户在没有任何检查或监督的情况下轻信信息时。
沃森表示:“在决策依赖于事实准确性的领域,例如医学、法律或金融,这个问题尤其成问题。虽然更先进的模型或许可以降低明显事实错误的发生频率,但这个问题仍然以更微妙的形式存在。随着时间的推移,虚构行为会削弱人们对人工智能系统作为可靠工具的认知,并且如果根据未经验证的内容采取行动,可能会造成重大损害。”
随着人工智能的进步,这个问题似乎会愈演愈烈。“随着模型能力的提升,错误往往变得不那么明显,但却更难被发现,”沃森指出。“捏造的内容越来越多地嵌入似是而非的叙述和连贯的推理链中。这带来了一个特殊的风险:用户可能没有意识到错误的存在,并可能将输出视为确定的,而实际上并非如此。问题从过滤粗略的错误转变为识别细微的扭曲,而这些扭曲可能只有在仔细审查后才会显现出来。”
Kazerounian 支持这一观点。“尽管人们普遍认为,人工智能的幻觉问题能够并且会随着时间的推移而得到改善,但看起来最新一代的高级推理模型实际上可能已经开始比其更简单的模型产生更多的幻觉——而对于其中的原因,目前还没有统一的解释,”他说。
情况变得更加复杂,因为很难确定LLM是如何得出答案的;这与我们仍然不完全了解人类大脑是如何工作的类似。
人工智能公司 Anthropic 的首席执行官达里奥·阿莫迪 (Dario Amodei)在最近的一篇文章中强调,人们对人工智能如何得出答案和信息缺乏理解。他写道:“当生成式人工智能系统执行某些操作时,例如总结一份财务文件,我们无法在具体或精确的层面上了解它为什么做出这样的选择——为什么它会选择某些词语而不是其他词语,或者为什么它偶尔会犯一些通常很准确的错误。”
Kazerounian 指出,人工智能产生虚假信息所造成的问题已经非常现实。“目前还没有通用的、可验证的方法,让LLM能够正确回答关于其所访问数据集的问题,”他说道。“虚假的推荐信、面向客户的聊天机器人编造公司政策等等,现在已经屡见不鲜。”
03
粉碎梦想
Kazerounian 和 Watson 都向 Live Science 表示,最终 AI 的幻觉可能难以消除。但或许有办法缓解这个问题。
沃森提出,“检索增强生成”将模型的输出建立在精心挑选的外部知识源上,可以帮助确保人工智能产生的信息以可验证的数据为基础。
“另一种方法是将结构引入模型的推理中。通过促使模型检查自身的输出、比较不同的观点或遵循逻辑步骤,支架式推理框架可以降低无约束推测的风险并提高一致性。”沃森指出,可以通过训练来塑造一个优先考虑准确性的模型,并通过人工或人工智能评估员的强化训练来鼓励LLM提供更有条理、更有根据的答案。
“最终,系统可以被设计成能够识别自身的不确定性。与其默认给出自信的答案,不如教会模型在不确定时做出标记,或在适当的时候听从人类的判断,”沃森补充道。“虽然这些策略并不能完全消除虚构的风险,但它们为提高人工智能输出的可靠性提供了一条切实可行的途径。”
鉴于人工智能的幻觉几乎不可能消除,尤其是在高级模型中,Kazerounian 得出结论,最终我们需要以“对待人类同行同样的怀疑态度”来对待LLM产生的信息。
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
设为星标 避免错过
虚拟世界没有旁观者,每个点赞都是创造历史的像素
关注我,一起探索AWM⁺
2025-06-13
2025-06-12
2025-06-11
商业赞助
点击下方 “目录” 阅读更多
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.