网易首页 > 网易号 > 正文 申请入驻

科学家发现,AI 大语言模型仍难以区分“信念”与“事实”

0
分享至

IT之家 11 月 7 日消息,据新华社今日报道,美国斯坦福大学近日发表的一项研究指出,包括 ChatGPT 在内的多款 AI 聊天机器人在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。

研究表明,当用户的个人信念与客观事实发生冲突时,AI 往往难以可靠地作出准确判断,容易出现“幻觉”或传播错误信息的情况。相关成果已于 11 月 3 日发表于《自然・机器智能》。

研究团队测试了 24 个前沿语言模型,其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向这些模型提出 13,000 个问题,以评估它们区分信念、知识与事实的能力。

论文指出:“大多数模型缺乏对知识的真实性特征的稳健理解 —— 知识本质上必须建立在真实之上。这一局限性意味着在将语言模型应用于高风险领域前,亟需改进。”

当要求它们验证事实性数据的真或假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到 LLM 相较于真实信念,更难识别虚假信念。

具体而言,较新的模型(2024 年 5 月 GPT-4o 发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低 34.3%。相较第一人称真实信念,较老的模型(GPT-4o 发布前)识别第一人称虚假信念的概率平均低 38.6%。

在测试中,所有模型在识别错误信念方面均出现显著失误。例如,GPT-4o 的准确率从 98.2% 降至 64.4%,DeepSeek R1 则从 90% 以上下滑至仅 14.4%。研究人员呼吁相关公司尽快改进模型,以避免在关键领域部署前产生风险。

论文警告称:“这种缺陷在某些领域具有严重影响 —— 例如法律、医学或新闻业 —— 在这些领域中,混淆信念与知识可能导致严重判断错误。”

这项研究并非首次对 AI 推理能力提出质疑。今年 6 月,苹果公司发布的一项研究也指出,新一代 AI 模型“可能并不像外界所认为的那样聪明”。苹果在研究中提到,Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”实际上并不具备真正的推理能力,而只是擅长“模式记忆”。

苹果研究写道:“通过在不同类型的逻辑谜题上进行广泛实验,我们发现当前的‘大型推理模型’(LRMs)在复杂度超过一定阈值后会出现全面准确率崩溃。”

研究还补充说,这些模型存在“反直觉的规模限制”:随着问题复杂度的提高,它们的推理努力会先增加,随后下降,即使仍有足够的运算资源。

此外,麻省理工学院(MIT)今年 8 月发布的一项研究发现,95% 的企业在部署 AI 系统后未能获得任何投资回报。研究指出,这种情况并非因为 AI 模型效率低下,而是由于 AI 系统难以与企业现有工作流程兼容,导致实施效果不佳。

IT之家附论文地址:
https ://doi.org/10.1038/s42256-025-01113-8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老师给外籍小朋友剥虾视频疯传,评论区骂惨了,怒斥:枉为人师

老师给外籍小朋友剥虾视频疯传,评论区骂惨了,怒斥:枉为人师

谈史论天地
2026-04-09 08:46:08
内维尔谈阿森纳英超剩余赛程:全避开硬仗,赛程再好不过了

内维尔谈阿森纳英超剩余赛程:全避开硬仗,赛程再好不过了

慢歌轻步谣
2026-04-20 10:37:49
詹姆斯在湖人战胜火箭中,创造了斯托克顿都无法企及的NBA纪录

詹姆斯在湖人战胜火箭中,创造了斯托克顿都无法企及的NBA纪录

好火子
2026-04-19 22:10:22
争议!广东“挥泪斩马谡”竟是烟雾弹?硬汉中锋空降,实则在赌未来

争议!广东“挥泪斩马谡”竟是烟雾弹?硬汉中锋空降,实则在赌未来

烟浔渺渺
2026-04-20 07:29:08
39+5+4!下克上!季后赛第一场打爆冷!黑八要来了……

39+5+4!下克上!季后赛第一场打爆冷!黑八要来了……

7号观察室
2026-04-20 11:19:18
捡漏神操作!曼联锁定 5200 万皇马巨星,完爆队内废柴

捡漏神操作!曼联锁定 5200 万皇马巨星,完爆队内废柴

澜归序
2026-04-20 01:07:19
世锦赛今日赛程:丁俊晖再战土豆哥,吴宜泽、雷佩凡、范争一登场

世锦赛今日赛程:丁俊晖再战土豆哥,吴宜泽、雷佩凡、范争一登场

老高说体育
2026-04-20 10:06:05
《八千里路云和月》大结局,田家泰牺牲,七哥的真正身份曝光

《八千里路云和月》大结局,田家泰牺牲,七哥的真正身份曝光

看尽落尘花q
2026-04-19 23:49:01
沉默2天后,中方通告全球,藏南是中国领土,并送给印度一个忠告

沉默2天后,中方通告全球,藏南是中国领土,并送给印度一个忠告

通文知史
2026-04-19 11:55:07
MSC神女号安全通过霍尔木兹海峡

MSC神女号安全通过霍尔木兹海峡

第一财经资讯
2026-04-19 23:04:28
中南医院院长被查,曾吹嘘自己老婆被他器重的人,肠子都悔青了

中南医院院长被查,曾吹嘘自己老婆被他器重的人,肠子都悔青了

江山挥笔
2026-04-19 15:03:25
本田被曝将关停广州、武汉两座燃油车工厂 年产能砍至72万辆

本田被曝将关停广州、武汉两座燃油车工厂 年产能砍至72万辆

金融界
2026-04-17 13:45:07
打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

趣文说娱
2026-04-18 19:34:03
网友喊话让何润东代言霸王茶姬,此前他已接到多个商务合作,最近30天抖音涨粉近200万,品牌客服回应

网友喊话让何润东代言霸王茶姬,此前他已接到多个商务合作,最近30天抖音涨粉近200万,品牌客服回应

极目新闻
2026-04-19 17:19:41
你做初一,我做十五!日舰过航台海三天后,052D冲向横当水道

你做初一,我做十五!日舰过航台海三天后,052D冲向横当水道

透视到底
2026-04-20 10:07:00
上海连续5天雨,这天雨势最明显

上海连续5天雨,这天雨势最明显

上观新闻
2026-04-20 09:28:05
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
有人说她要“背锅”

有人说她要“背锅”

徐静波静说日本
2026-04-19 07:11:41
不装了赖清德、马英九暴露真面目!国民党发甲级动员,想决一死战

不装了赖清德、马英九暴露真面目!国民党发甲级动员,想决一死战

青梅侃史啊
2026-04-19 19:17:48
文强背后的女人:王紫绮与她的 “亮点帝国”,罪恶藏在旗袍之下

文强背后的女人:王紫绮与她的 “亮点帝国”,罪恶藏在旗袍之下

干史人
2026-04-17 18:51:57
2026-04-20 11:52:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
339940文章数 607146关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

亲子
手机
本地
房产
军事航空

亲子要闻

普通家庭养娃补钙,90% 家长都补错了!

手机要闻

消息称某厂骁龙8 Elite Gen6 Pro手机新开6.9英寸直屏

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版