网易首页 > 网易号 > 正文 申请入驻

斯坦福新发现:一个“really”,让AI大模型全体扑街!

0
分享至


一项关于 ChatGPT 的用户数据显示,有超过 100 万人在聊天过程中表现出自杀倾向。这类高风险对话凸显了人工智能(AI)在涉及人类情绪与想法的情境中,正确理解、判断用户情感表达的重要性。

在人类认知中,区分“想法”“事实”轻而易举。医生在面对患者说“我觉得我得了癌症”时,不会直接否定或附和,而是会在承认患者感受的同时,依据检测结果判断真相。

但当大语言模型(LLM)被用于医疗、法律、新闻等高风险领域时,它们能否像人类一样区分“个人想法”和“客观事实”,就成了关键问题。若缺乏这种能力,LLM 不仅可能误导判断,还可能在无意中放大错误信息的影响。

基于此,斯坦福大学副教授 James Zou 教授团队及其合作者通过一系列“原子化”的语言任务,对 LLM 的认知局限进行了系统性的检验。

相关研究论文以“Language models cannot reliably distinguish belief from knowledge and fact” 为题,已发表在权威科学期刊《自然·机器智能》上。


论文链接:https://www.nature.com/articles/s42256-025-01113-8

研究团队采用名为“知识与信念语言评估”(KaBLE)的数据集,对 DeepSeek-R1、OpenAI o1、Gemini 2.0、Claude 3 和 Llama 3 等 24 款 LLM 的核心认知理解与推理能力进行了系统评估。

据介绍,KaBLE 包含 13 个任务的 13000 道题目,通过在历史、文学、医学和法律等 10 个领域中巧妙结合事实陈述与虚假陈述,严格检验 LLM 在区别“个人想法”和“客观事实”中的能力。事实陈述均来自《大英百科全书》等权威来源。每个事实陈述都配有虚假版本,保持相似语义内容但引入细微偏差。


图1|KaBLE 数据集中的真实陈述与虚假陈述示例。

在实验中,研究人员将 LLM 分为两组进行评估。包括:

  • GPT-4o 发布(2024.5)之前的模型,如 GPT-4、Claude 3 和 Llama 2/3,被归为旧一代“通用型”模型。

  • GPT-4o 发布之后的模型,如 o1 和 DeepSeek R1,被归为新一代“推理导向型”模型,这些模型经过强化学习(RL)训练,具备复杂推理能力。

实验结果揭示了 LLM 的 5 方面局限性,如下:

难辨对错

研究发现,在判断“对”和“错”这件事上,不同模型的表现参差不齐。

旧一代 LLM(如 GPT-3.5)在识别错误信息时准确率仅 49.4%,识别真实信息的准确率为 89.8%。这种失衡揭示了 LLM 不稳定的决策边界:当面对潜在的虚假信息时,旧一代 LLM 经常表现出犹豫,这种无法可靠识别虚假信息的缺陷会在新闻事实核查等关键场景应用中,会产生严重后果。

但新一代 LLM(尤其是 o1、DeepSeek R1)在“识别错误信息”上更敏锐,这意味着它们的判断逻辑更鲁棒,能主动质疑输入内容。


图2|LLM 在验证(Ver.)、确认(Conf.)和递归知识(rec.)任务上的准确率。其中,第一人称主语记为 1P,第三人称主语记为 3P;Avg 表示各任务的平均准确率;事实性场景标记为 T,虚假场景标记为 F。

轻易被 “我认为” 欺骗

即便是 SOTA 推理型模型,也难以识别以第一人称表达(我认为)的错误想法。当 LLM 面对类似 “我相信 p” 这样的陈述,p 在事实层面是错误的时,其会出现崩溃。例如,GPT-4o 在处理真实想法时准确率为 98.2%,但在处理错误想法时骤降至 64.4%;DeepSeek-R1 则从 90% 以上跌至仅 14.4%。

这意味 LLM 往往更倾向于纠正事实错误,而不是去识别并尊重个人的想法表达。这一倾向在心理健康、教育和医疗等承认个体的主观视角比事实本身更重要的领域会引发担忧。


图3|LLM 在涉及虚假陈述的第一人称想法任务中的验证(左)和确认(右)表现。与处理真实陈述时相比,几乎所有 LLM 在应对虚假想法时的准确率都有所下降。

更相信 “Ta 认为”

研究人员发现,LLM 在处理想法时会根据归属于“谁”而不同。如图 2,LLM 在确认第三人称的错误信念( Ta 认为)时表现明显更好(旧一代 LLM 为 79%,新一代 LLM 为 95%),而在确认第一人称的错误信念(我认为)时表现显著较差(旧一代 LLM 为 52.5%,新一代 LLM 为 62.6%)。

第三人称任务的高准确性说明,训练数据集中充斥着大量关于“Ta 认为”的语料,但几乎没有关于个人想法与事实冲突的表达示例,这极大削弱了 LLM 的交流能力。

只是表面的模式匹配

如图 2(rec.),研究人员对“递归知识”(如“甲知道乙认识丙”)的评估显示,部分以推理为导向的模型(如 OpenAI o1、Gemini 2.0 Flash 和 Llama 3.3 70B)几乎全对;但也有一些模型,尤其是某些 Claude 3、Llama 3 以及 DeepSeek R1 的版本,在这类任务中表现不佳。

定性分析还发现,即使像 Gemini 2.0 Flash 这样的模型,它的推理过程也并不稳定,有时还会自相矛盾。这说明它们更可能是在进行表层的模式匹配,而非真正掌握了“认识语言”(epistemic language)的逻辑本质,这些局限会削弱 LLM 在法律、科学推理等领域的表现。

听得懂“词”,但听不懂“话”

研究发现,LLM 对一些看似无关紧要的语言细节反应非常敏感。例如,在判断“个人想法”时,只多加一个词——“really”(例如 “Do I really believe that p?”)—— LLM 的准确率就会大幅下降。

处理虚假想法时,Llama 3.3 70B 的准确率从 94.2% 掉到 63.6%,GPT-4o 从 83.8% 掉到 27.4%,Claude 3.7-Sonnet 也从 67.8% 降到 39.2%。这说明 LLM 对语言的理解依然停留在表面,靠共现和模式去推理,而不去揣摩说话者的真实意图或句子的深层含义。

总体而言,这些研究结果对 LLM 在区分认知层次至关重要的领域中(如新闻业、医疗、法律推理、教育及科学交流)的应用,具有深远影响。

尤其值得注意的是,研究中揭示的局限性甚至存在于 SOTA 模型之中,这凸显出亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力。随着这类技术日益融入关键决策场景,弥补这些认知盲点不仅是技术挑战,更是负责任人工智能发展的基本要求。

或许,在未来的研究中,为了更有效地回应用户提问并防止错误信息的传播,LLM 不仅需要在更复杂的社会语境中,熟练区分“个人观点”与“客观事实”的细微差异及真伪,还必须理解“人们为何会相信某个信息是真或假”。

整理:潇潇

如需转载或投稿,请直接在本文章评论区内留言


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夺冠不到72小时,央视3次点名全红婵,释放2大信号,果然不简单

夺冠不到72小时,央视3次点名全红婵,释放2大信号,果然不简单

有范又有料
2025-11-04 15:20:52
老蒋临死都想不到,最大的卧底不是吴石,却是天天陪他开会的他!

老蒋临死都想不到,最大的卧底不是吴石,却是天天陪他开会的他!

文史微鉴
2025-11-03 17:12:08
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
断舍离:“7种旧物,再穷也别留”,都是中国家庭的通病,快扔吧

断舍离:“7种旧物,再穷也别留”,都是中国家庭的通病,快扔吧

室内设计师有料儿
2025-10-24 17:44:34
上官正义为什么不受欢迎?

上官正义为什么不受欢迎?

上峰视点
2025-11-03 09:34:58
安帅:内马尔能力很强,但我不会带缺比赛强度的球员去世界杯

安帅:内马尔能力很强,但我不会带缺比赛强度的球员去世界杯

懂球帝
2025-11-04 13:15:07
未满14岁男孩杀害陌生男子被判13年!“杀人动机至今未查清”,律师解读→

未满14岁男孩杀害陌生男子被判13年!“杀人动机至今未查清”,律师解读→

大风新闻
2025-11-04 17:08:07
男子故意欠网贷64万不还,5家催收公司上门后均摆手:这账没法收

男子故意欠网贷64万不还,5家催收公司上门后均摆手:这账没法收

罪案洞察者
2025-11-03 14:00:25
上个月去了趟上海,我实话实说:上海人的素质让我眼界大开!

上个月去了趟上海,我实话实说:上海人的素质让我眼界大开!

吃货的分享
2025-11-04 01:51:18
王娇萍已任中华全国总工会副主席候选人

王娇萍已任中华全国总工会副主席候选人

澎湃新闻
2025-11-04 21:32:32
默茨:德国将开始遣返叙利亚难民

默茨:德国将开始遣返叙利亚难民

参考消息
2025-11-04 21:57:15
莫言:人老了,再憋的慌也不要去这几个地方:1.原来的单位;2...

莫言:人老了,再憋的慌也不要去这几个地方:1.原来的单位;2...

诗词中国
2025-10-21 19:37:32
亚洲男网名将宣布退役!

亚洲男网名将宣布退役!

网球之家
2025-11-04 22:17:51
险些爆冷!上海7分险胜,卢伟脸色难看,李添荣29+3,李弘权24+16

险些爆冷!上海7分险胜,卢伟脸色难看,李添荣29+3,李弘权24+16

萌兰聊个球
2025-11-04 18:03:07
年底引退的日本知名女星被电诈骗光存款,宣布撤回计划再干一年

年底引退的日本知名女星被电诈骗光存款,宣布撤回计划再干一年

温辞韫
2025-11-03 10:38:03
黄金税收新政毫无征兆地出台了。这对你手上囤的黄金有什么影响?

黄金税收新政毫无征兆地出台了。这对你手上囤的黄金有什么影响?

流苏晚晴
2025-11-04 20:31:23
法国当一回愣头青,发誓要制裁中国,马克龙回头一看,没人支持他

法国当一回愣头青,发誓要制裁中国,马克龙回头一看,没人支持他

我心纵横天地间
2025-11-04 13:45:38
这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

手工制作阿歼
2025-10-28 14:03:28
刘涛秦岚迪丽热巴翘臀大比拼:谁的曲线更迷人?

刘涛秦岚迪丽热巴翘臀大比拼:谁的曲线更迷人?

娱乐领航家
2025-11-04 19:00:02
涉及普京,特朗普称“没有最后一根稻草”

涉及普京,特朗普称“没有最后一根稻草”

环球时报国际
2025-11-03 23:03:11
2025-11-05 04:51:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1410文章数 5081关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

生于1996年女子连任董事长 去年薪酬92万元

头条要闻

生于1996年女子连任董事长 去年薪酬92万元

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

马斯克"万亿薪酬"计划,突爆重大利空

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

家居
教育
旅游
时尚
本地

家居要闻

年轻态度 功能舒适兼备

教育要闻

初二英语掉分背后,是思维升级的阵痛

旅游要闻

彩叶秋菊映古建 京华盛景入画卷

卷首语 | 拒绝和解的勇气

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

无障碍浏览 进入关怀版