网易首页 > 网易号 > 正文 申请入驻

科学家发现,AI 大语言模型仍难以区分“信念”与“事实”

0
分享至

IT之家 11 月 7 日消息,据新华社今日报道,美国斯坦福大学近日发表的一项研究指出,包括 ChatGPT 在内的多款 AI 聊天机器人在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。

研究表明,当用户的个人信念与客观事实发生冲突时,AI 往往难以可靠地作出准确判断,容易出现“幻觉”或传播错误信息的情况。相关成果已于 11 月 3 日发表于《自然・机器智能》。

研究团队测试了 24 个前沿语言模型,其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向这些模型提出 13,000 个问题,以评估它们区分信念、知识与事实的能力。

论文指出:“大多数模型缺乏对知识的真实性特征的稳健理解 —— 知识本质上必须建立在真实之上。这一局限性意味着在将语言模型应用于高风险领域前,亟需改进。”

当要求它们验证事实性数据的真或假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到 LLM 相较于真实信念,更难识别虚假信念。

具体而言,较新的模型(2024 年 5 月 GPT-4o 发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低 34.3%。相较第一人称真实信念,较老的模型(GPT-4o 发布前)识别第一人称虚假信念的概率平均低 38.6%。

在测试中,所有模型在识别错误信念方面均出现显著失误。例如,GPT-4o 的准确率从 98.2% 降至 64.4%,DeepSeek R1 则从 90% 以上下滑至仅 14.4%。研究人员呼吁相关公司尽快改进模型,以避免在关键领域部署前产生风险。

论文警告称:“这种缺陷在某些领域具有严重影响 —— 例如法律、医学或新闻业 —— 在这些领域中,混淆信念与知识可能导致严重判断错误。”

这项研究并非首次对 AI 推理能力提出质疑。今年 6 月,苹果公司发布的一项研究也指出,新一代 AI 模型“可能并不像外界所认为的那样聪明”。苹果在研究中提到,Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”实际上并不具备真正的推理能力,而只是擅长“模式记忆”。

苹果研究写道:“通过在不同类型的逻辑谜题上进行广泛实验,我们发现当前的‘大型推理模型’(LRMs)在复杂度超过一定阈值后会出现全面准确率崩溃。”

研究还补充说,这些模型存在“反直觉的规模限制”:随着问题复杂度的提高,它们的推理努力会先增加,随后下降,即使仍有足够的运算资源。

此外,麻省理工学院(MIT)今年 8 月发布的一项研究发现,95% 的企业在部署 AI 系统后未能获得任何投资回报。研究指出,这种情况并非因为 AI 模型效率低下,而是由于 AI 系统难以与企业现有工作流程兼容,导致实施效果不佳。

IT之家附论文地址:
https ://doi.org/10.1038/s42256-025-01113-8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
释放重大信号,连《闪灵》都能上,看样子,电影审批真的放宽松了

释放重大信号,连《闪灵》都能上,看样子,电影审批真的放宽松了

电影票房预告片
2026-01-06 22:30:17
拆除引擎盖外置八涡轮!“逆天爆改”车上路18分钟,博主驾驶证被吊销

拆除引擎盖外置八涡轮!“逆天爆改”车上路18分钟,博主驾驶证被吊销

红星新闻
2026-01-07 18:21:34
狂飙90%!从“始祖鸟平替”逆袭成中产新宠,品牌老板一年卖40亿

狂飙90%!从“始祖鸟平替”逆袭成中产新宠,品牌老板一年卖40亿

刘森森
2025-12-01 19:48:21
一旦感染终身携带!发作痛不欲生,超90%成人体内潜伏这种病毒

一旦感染终身携带!发作痛不欲生,超90%成人体内潜伏这种病毒

北纬的咖啡豆
2026-01-06 19:22:22
夏季青春减龄的穿搭,一字肩上衣搭配白色短裤,轻松穿出活力感

夏季青春减龄的穿搭,一字肩上衣搭配白色短裤,轻松穿出活力感

灼灼小齐
2026-01-06 00:05:03
商务部:对原产于日本的进口二氯二氢硅发起反倾销立案调查

商务部:对原产于日本的进口二氯二氢硅发起反倾销立案调查

界面新闻
2026-01-07 15:12:02
意媒:利物浦希望收回买基耶萨时的1200万欧,但尤文肯定压价

意媒:利物浦希望收回买基耶萨时的1200万欧,但尤文肯定压价

懂球帝
2026-01-06 23:24:08
英超官方晒阿莫林执教曼联首秀及末战阵容:你注意到了什么?

英超官方晒阿莫林执教曼联首秀及末战阵容:你注意到了什么?

懂球帝
2026-01-07 12:56:05
不愧是HBO,这部9.5分美剧太顶

不愧是HBO,这部9.5分美剧太顶

来看美剧
2026-01-07 21:47:10
伊斯兰新教创始人马明心在甘肃兰州被斩,引发两万回民军反清

伊斯兰新教创始人马明心在甘肃兰州被斩,引发两万回民军反清

阿黼体育评论
2025-12-08 19:33:15
优质“蛋白质”排行榜!牛奶倒数第一,虾肉才排第5,建议了解

优质“蛋白质”排行榜!牛奶倒数第一,虾肉才排第5,建议了解

岐黄传人孙大夫
2025-12-20 10:00:03
拆除马到成功雕塑,是纵容文字狱式舆情

拆除马到成功雕塑,是纵容文字狱式舆情

不主流讲话
2026-01-06 08:51:34
三九将至!江苏能否打破偏暖状态,回归寒冷?

三九将至!江苏能否打破偏暖状态,回归寒冷?

扬子晚报
2026-01-07 21:30:32
荷兰安世仍不愿供货,中国等不了,将形成中欧两套独立芯片供应链

荷兰安世仍不愿供货,中国等不了,将形成中欧两套独立芯片供应链

现代小青青慕慕
2026-01-07 09:52:08
你好特雷杨!爆开拓者7换1交易方案,罗威去老鹰,杨瀚森要崛起了

你好特雷杨!爆开拓者7换1交易方案,罗威去老鹰,杨瀚森要崛起了

毒舌NBA
2026-01-07 14:16:24
马杜罗拘留单间内部情景曝光:洗手池和厕所一体,有多道铁门隔离

马杜罗拘留单间内部情景曝光:洗手池和厕所一体,有多道铁门隔离

史料布籍
2026-01-07 22:33:34
致死率超40%!面对席卷全球的“超级真菌”耳念珠菌,医生复盘了3年病例,发现救命的关键除了特效药,还得守住这条“生命线”……

致死率超40%!面对席卷全球的“超级真菌”耳念珠菌,医生复盘了3年病例,发现救命的关键除了特效药,还得守住这条“生命线”……

医路防老
2026-01-07 23:54:09
人社部部长表态,2026年养老金有望继续涨,事退能涨100元吗?

人社部部长表态,2026年养老金有望继续涨,事退能涨100元吗?

阿纂看事
2026-01-07 09:20:04
尼日尔赖掉4亿美元,驱逐中企高管,中方暗藏底牌漂亮反击

尼日尔赖掉4亿美元,驱逐中企高管,中方暗藏底牌漂亮反击

南冥那只猫
2025-05-11 10:33:43
CBA青岛主场73:90完败上海,一战打出7个可笑事实!

CBA青岛主场73:90完败上海,一战打出7个可笑事实!

田先生篮球
2026-01-07 22:32:54
2026-01-08 04:39:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
323435文章数 606869关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

家居
教育
游戏
房产
公开课

家居要闻

宁静不单调 恰到好处的美

教育要闻

在AI时代,教育有三个基本原理不会变

《GTA6》地图规模再引热议:这次真要"大到离谱"了?

房产要闻

最新!海口二手房,涨价房源突然猛增30%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版