网易首页 > 网易号 > 正文 申请入驻

【人工智能】AI 幻觉正在变得越来越严重——而且这种现象还会持续下去

0
分享至

人工智能排行榜显示,聊天机器人使用的最新推理模型由于幻觉率较高,导致结果准确性下降。专家表示,问题远不止于此

过去几个月,OpenAI 和谷歌等科技公司的人工智能聊天机器人一直在进行所谓的推理升级——理想情况下,它们能更好地给出值得信赖的答案,但最近的测试表明,它们有时表现不如之前的模型。聊天机器人的错误,即所谓的“幻觉”,从一开始就是一个问题,而且越来越明显的是,我们可能永远无法摆脱它们。

幻觉是一个笼统的术语,指的是大型语言模型 (LLM) 所犯的某些错误,这些模型为 OpenAI 的 ChatGPT 或谷歌的 Gemini 等系统提供支持。它最广为人知的是,它描述了这些模型有时会将虚假信息呈现为真实信息。但它也可以指人工智能生成的答案在事实上准确,但与被问到的问题实际上并不相关,或者在其他方面未能遵循指令。

OpenAI 一份评估其最新 LLM 的技术报告显示,其于今年 4 月发布的 o3 和 o4-mini 模型的幻觉发生率显著高于该公司于 2024 年底发布的上一代 o1 模型。例如,在总结关于人类的公开信息时,o3 产生幻觉的概率为 33%,而 o4-mini 的概率为 48%。相比之下,o1 的幻觉发生率为 16%。

这个问题并不仅限于 OpenAI。Vectara公司的一个评估幻觉率的热门排行榜显示,一些“推理”模型——包括开发者 DeepSeek 开发的DeepSeek-R1 模型——的幻觉率与其开发者之前的模型相比,出现了两位数的增长。这类模型在做出反应之前,会经过多个步骤来展示推理过程。

OpenAI 表示,推理过程并非罪魁祸首。“幻觉在推理模型中并非天生就更普遍,尽管我们正在积极努力降低在 o3 和 o4-mini 中观察到的较高幻觉发生率,”OpenAI 的一位发言人表示。“我们将继续研究所有模型中的幻觉问题,以提高准确性和可靠性。”

一些潜在的大语言模型(LLM)申请可能会因幻觉而受阻。一个不断陈述谎言并需要事实核查的模型不会成为一个有用的研究助理;一个引用虚构案例的律师助理机器人会给律师带来麻烦;一个声称过时政策仍然有效的客服人员会给公司带来麻烦。

然而,人工智能公司最初声称这个问题会随着时间的推移而逐渐消失。事实上,在模型首次发布后,每次更新后,幻觉的出现频率都会减少。但最近版本的高幻觉出现率使这一说法更加复杂——无论推理是否出了问题。

Vectara 的排行榜根据模型在总结给定文档时的事实一致性进行排名。Vectara 的Forrest Sheng Bao表示,这表明“推理模型和非推理模型的幻觉率几乎相同”,至少对于 OpenAI 和谷歌的系统来说是如此。谷歌没有提供更多评论。Bao 表示,就排行榜而言,具体的幻觉率数字不如每个模型的总体排名重要。

但这种排名可能不是比较AI模型的最佳方式。

首先,它混淆了不同类型的幻觉。Vectara 团队指出,尽管 DeepSeek-R1 模型出现幻觉的概率为 14.3%,但大多数幻觉都是“良性的”:这些答案有逻辑推理或世界知识的事实支持,但实际上并不存在于机器人被要求总结的原文中。DeepSeek 未提供更多评论。

华盛顿大学的艾米丽·本德表示,这种排名的另一个问题是,基于文本摘要的测试“无法反映 LLM 用于其他任务时输出错误率”。她表示,排行榜结果可能并非评判这项技术的最佳方式,因为 LLM 并非专门为文本摘要而设计的。

这些模型的工作原理是反复回答“下一个词可能是什么”的问题,从而形成对提示的答案,因此它们并非按照通常的方式处理信息,即试图理解文本主体中存在哪些信息,本德说道。但许多科技公司在描述输出错误时,仍然频繁使用“幻觉”一词。

“‘幻觉’这个术语本身就存在双重问题,”本德说道。“一方面,它暗示错误的输出是一种异常,或许可以缓解,而其余时间系统是扎实、可靠且值得信赖的。另一方面,它的作用是将机器拟人化——幻觉指的是感知到并不存在的东西,而大型语言模型什么都感知不到。”

普林斯顿大学的阿尔温德·纳拉亚南 (Arvind Narayanan)表示,这个问题不仅仅是幻觉。模型有时也会犯其他错误,例如引用不可靠的来源或使用过时的信息。仅仅向人工智能投入更多的训练数据和计算能力并不一定能起到作用。

最终结果是,我们可能不得不忍受容易出错的人工智能。纳拉亚南在一篇社交媒体帖子中表示,在某些情况下,最好只在核实人工智能答案仍然比自己进行研究更快的情况下才使用此类模型。但本德表示,最好的做法可能是完全避免依赖人工智能聊天机器人来提供事实信息。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。 如有侵权,请与我们联系。 所有信息仅供参考和分享,不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。 投资有风险,入市需谨慎。

注我们,一起探索AWM

2025-05-08

2025-05-06

2025-05-06

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国足世界杯开门黑内幕曝光:米卢战术泄露 孙继海被对手故意铲废

国足世界杯开门黑内幕曝光:米卢战术泄露 孙继海被对手故意铲废

念洲
2026-06-25 06:48:04
李源潮母亲吕继英的传奇人生:18岁光荣入党投身革命事业

李源潮母亲吕继英的传奇人生:18岁光荣入党投身革命事业

磊子讲史
2026-06-25 12:56:37
豆包正式收费了!但这6个功能免费无限次用,强烈建议收藏!

豆包正式收费了!但这6个功能免费无限次用,强烈建议收藏!

秋叶PPT
2026-06-25 08:23:04
学科带头人年薪50-100 万,门诊医师年薪15-25万,四川三级医院多科室高薪招人

学科带头人年薪50-100 万,门诊医师年薪15-25万,四川三级医院多科室高薪招人

华医网
2026-06-25 13:50:09
医生反复强调:人老了,宁可多喝几口酒,都不要随便喝这3样

医生反复强调:人老了,宁可多喝几口酒,都不要随便喝这3样

健康之光
2026-06-18 21:30:03
为什么如今的个股动辄5%以上的跌幅?终于说清楚了

为什么如今的个股动辄5%以上的跌幅?终于说清楚了

作家出版人姚茂敦
2026-06-25 10:33:37
曼联传奇罗伊·基恩痛批阿尔瓦雷斯:需要学会尊重,这就是自私

曼联传奇罗伊·基恩痛批阿尔瓦雷斯:需要学会尊重,这就是自私

林子说事
2026-06-25 11:22:48
西安楼市开始离谱了!高新区软件新城板块从3.2万变成1.8万

西安楼市开始离谱了!高新区软件新城板块从3.2万变成1.8万

混沌录
2026-06-25 22:08:26
结束四段婚姻,55岁她再找25岁男友,3月内砸5000万,今官宣生女

结束四段婚姻,55岁她再找25岁男友,3月内砸5000万,今官宣生女

不似少年游
2026-06-25 22:02:29
零跑D99正式上市 售价24.89万元起 最高115kWh电池

零跑D99正式上市 售价24.89万元起 最高115kWh电池

CNMO科技
2026-06-25 20:20:01
41.86万人上线普通本科批次!2026广东高考各分数段出炉

41.86万人上线普通本科批次!2026广东高考各分数段出炉

广东发布
2026-06-25 22:29:11
三星与LG将于越南生产iPhone 18 Pro OLED模块 供应量或超8000万片

三星与LG将于越南生产iPhone 18 Pro OLED模块 供应量或超8000万片

CNMO科技
2026-06-25 17:55:18
北京楼市:从北漂圣地变成抛售重灾区,天通苑的房子捂不住了!

北京楼市:从北漂圣地变成抛售重灾区,天通苑的房子捂不住了!

北京房姐
2026-06-25 19:19:12
发现一个现象:中产返贫三件套,已经升级为六件套了!

发现一个现象:中产返贫三件套,已经升级为六件套了!

番外行
2026-05-18 10:25:35
2027款特斯拉Model Y L 全新图赏

2027款特斯拉Model Y L 全新图赏

热血体育社
2026-06-25 00:37:26
又一日本巨头宣布断供!曾以为能拿捏中国,不料中国替代强势崛起

又一日本巨头宣布断供!曾以为能拿捏中国,不料中国替代强势崛起

混沌录
2026-06-25 22:09:34
特朗普暗地怂恿乌克兰“胆大一些”,俄白一唱一和相互壮胆

特朗普暗地怂恿乌克兰“胆大一些”,俄白一唱一和相互壮胆

史政先锋
2026-06-24 18:18:09
刘德华“替身”杜奕衡近况曝光!无戏可拍,骑三轮街头摆摊卖炒菜

刘德华“替身”杜奕衡近况曝光!无戏可拍,骑三轮街头摆摊卖炒菜

洲洲影视娱评
2026-06-23 17:28:42
中午还一起喝酒,晚上就被朋友酒瓶砸头,男子次日凌晨车内离世;警方已立案

中午还一起喝酒,晚上就被朋友酒瓶砸头,男子次日凌晨车内离世;警方已立案

大风新闻
2026-06-24 18:42:20
李玟遗嘱执行人,起诉李玟生前精神科主诊医生及两名救护员

李玟遗嘱执行人,起诉李玟生前精神科主诊医生及两名救护员

大象新闻
2026-06-25 17:17:04
2026-06-25 23:07:01
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2064文章数 92关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

33岁男子赴泰考察后失联 曾打电话给妻子称"被人按着"

头条要闻

33岁男子赴泰考察后失联 曾打电话给妻子称"被人按着"

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

一汽-大众迈腾PHEV、探岳L PHEV双车上市 16.99万起

态度原创

亲子
教育
本地
健康
公开课

亲子要闻

2026孕前养巢肌醇分享,肌醇哪个牌子不易产生身体不适感?呵护卵巢实现助孕目标

教育要闻

收藏!2026全国31省高考志愿填报时间最全汇总,错过一天等一年!

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

医生如何快速诊断脑梗和脑出血?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版