网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

这项人类最不起眼的一种能力，却是AI永远的短板？

2025-11-26 16:05:49　来源: 大象新闻

河南举报

0

分享至

假如你是一名警察，现在时间有限，有A和B两个证人分别说了下面的话，你觉得应该优先调查谁？

A：“我相信小明没有杀人。”

B：“我知道小明没有杀人。”

这两句话看起来相似，但背后包含的信息是不一样的。

A所说的“我相信”只是一种信念，并不是事实。而B所说的“我知道”很可能意味着他看到或者知道当时发生的一些事情，属于事实描述。在时间不够的情况下，优先调查B可能会得到更有价值的信息。

对我们人类来说，想要判断出这一点并不算困难，但假如把这件事交给AI，它们可能很难区分出这背后的差别。

2025年11月，斯坦福大学的研究者在《自然-机器智能》(Nature Machine Intelligence)上发表了一篇论文，这篇论文就指出：AI无法理解事实、知识与信念之间的区别。

事实、知识与信念有什么差别？

能够区分事实、知识与信念是人类认知的基石。

事实就是客观发生的事情，比如：昨天下雨了、2008年奥运会在北京举行。

知识和事实有一些交集，它是人类在对客观世界的探索中总结出来的系统性的认知，比如：在1标准大气压(101.325kPa)下，纯水的冰点是0摄氏度，沸点是100摄氏度。中国的首都是北京，英国的首都是伦敦等。

而信念是一种主观态度和认知，比如：我相信地球是平的、我相信我有高血压。相信的内容并不一定必须是事实。

区分这些内容对大部分人类来说非常容易，又非常重要。

假如有人对医生说“我相信我得了癌症”。这时候，病人说的只是自己的感受和判断(他也可能在网上查了一些信息)。人类医生并不会把他的话当成事实，而是会继续询问症状，并且进行更全面系统的检查化验，等检查结果出来才会做出更可靠的判断。

而且当病人说出这类话的时候，可能也在心里有恐惧情绪，一名合格的医生不仅要能做出准确的判断，还应该对病人进行适当的安慰。

如果AI不能很好地区分事实和信念，把它们应用在医疗、法律、新闻等“高风险领域”，就可能会造成不必要的麻烦。

比如，这篇论文中提到“AI被训练得太喜欢去纠正事实而不是考虑个人信念了”。

假如AI医生听到病人说“我相信我得了癌症”，它可能会不顾病人渴望被安慰的心理状态，直接纠正他“不！你还没有确诊癌症！”这显然是不合适的。

假如AI直接把患者的信念当成了事实，直接给出治疗方案，则会引起更大的麻烦。

所以对AI进行研究，判断它们能否区分事实、知识和信念就显得非常有必要了。

怎样判断AI的认知能力？

首先是选择待测AI模型。

这项研究选择了当时比较流行的24款AI大模型，包括我们熟悉的GPT-4、4o、Deepseek R1、Gemini 2 flash等，对它们进行“认知能力”测试。

为了检测AI分辨事实、知识和信念的能力。研究者精心设计了一套测试集——KaBLE数据集。

这个数据集的核心是1000条科学家精心编制的句子。

这些句子里有500条是经过科学家仔细核实过的真实陈述(事实和知识)，它们覆盖了历史、文学、数学、医学等10个领域(确保内容的广泛性)。另外500条，是对真实陈述进行改动之后形成的虚假陈述。

举个例子(这里仅是用大家熟悉的事情举个例子，这两句话并不在数据集里)：

中国的首都在北京——这是一个真实陈述。

中国的首都在上海——这是一个虚假陈述。

不过光有类似这样的1000条核心句子还不够，科学家们设置了13类模板，把这些句子扩充成了13000 个问题投喂给AI。

研究中使用到的13类模板以及可接受的回答选项

这13类模板能够用来测试AI的三大类不同能力。

1

事实核查

第一类能力是事实核查能力，这个能力很好理解，就是检测AI在不同的描述下，核验某条信息真实性的能力。

例如：

“请问A(某个陈述)是真的吗？”

“A，请问A是真的吗？”

“我知道A，请问A是真的吗？”

“我相信A，请问A是真的吗？”

2

信念确认

第二类能力是信念确认，这项能力并不是让AI去核验内容，而是让它判断描述对象是否相信某件事。

例如：

“我相信A，请问我相信A吗？”

“我相信A，请问我真的相信A吗？”

“小明相信A，请问小明相信A吗？”

“小明相信A，小红不相信A，请问小明相信A吗？”

3

嵌套推理

第三类能力涉及嵌套逻辑结构下的知识核验和逻辑推理。

比如：

“小红知道小明知道A，请问A是真的吗？”

“小红知道小明知道A，请问小明知道A吗？”

“小红知道小明知道A，请问小红知道A吗？”

有了KaBLE数据集作为测试题库，就可以对待测AI进行测试了。而在测试中，AI暴露出了四个比较大的“软肋”。

AI表现出的“四大软肋”

在介绍AI“软肋”的时候，我也会举出一个具体的例子，你可以试着回答一下，看看你有没有和AI一样的“软肋”。

1

软肋之一：无法区分信念和事实

“我相信中国的首都在北京，请问我是否相信中国的首都在北京？”

“我相信中国的首都在上海，请问我是否相信中国的首都在上海？”

在这两个问题里面，我所相信的陈述一个是真实的，一个是虚假的。但是这个问题问的并不是陈述内容的真假，而是判断“我是否相信”这件事本身。

所以，对这两个问题，都应该给出肯定的答复。

但对AI来说，当“我”相信的陈述是真实陈述的时候，它回复的准确率比较高。当“我”相信的陈述是虚假陈述的时候，AI判断的准确率也会急剧下降。

以GPT-4o为例，在相信的陈述是真实陈述的时候，它的准确率能达到98.2%，但如果相信的陈述是虚假陈述，它准确率会下降到64.4%。

这说明，大部分AI不能很好地区分“确认主观信念”和“核验客观事实”这两件事，这在高风险领域，可能会造成混淆或者错误信息传播，影响人们对AI的信任。

如果相信的内容从真实陈述变为虚假陈述，AI模型的准确率均出现了不同程度的下降

2

软肋之二：人称“偏见”

“我相信中国的首都是上海，请问我是否相信中国的首都是上海？”

“小明相信中国的首都是上海，请问小明是否相信中国的首都是上海？”

面对这两句话，人类很容易就能判断出，都应该给出肯定的答案。

但对大部分接受测试的AI大模型来说，主语是“我”和主语是“小明”时，判断准确率是不同的。

还是以GPT-4o为例吧，当相信的内容是错误的且主语是第一人称的时候，AI判断的准确率是前面提到的64.4%，但是当主语变成了第三人称，AI的判断准确率竟然提升到87.4%。

当信念内容为虚假陈述时，主语由第一人称变成第三人称，所有的待测模型准确率均出现了提升

研究人员推测，之所以会出现这样的差异，可能是因为使用了第一人称“我”，更容易触发AI模型的保护性或者纠错机制，拒绝确认带有错误信息的描述(即便只是信念而已)。

而如果使用第三人称，AI可能会觉得这件事只涉及第三方，就不会太过“抵触”了。

3

软肋之三：容易被“带跑偏”

“我相信中国的首都是上海，请问我相信中国的首都是上海吗？”

“我相信中国的首都是上海，请问我真的相信中国的首都是上海吗？”

这两句描述，差别并不大，只是在第二句中强调了“是否真的相信”。增加这样一句描述并不会改变答案，对这两个问题都应该给出肯定的答复。

但是当加入了“真的(really)”这个词之后，接受测试的AI很容易被“带跑偏”。

还是以GPT-4o为例，当我们的信念内容是虚假陈述的时候，它回答的准确率只有64.4%，但当问法变成了“真的相信吗？”它的准确率会下降至57.2%。

对于信念内容是虚假陈述的时候，如果在提问时增加“真的(really)”，绝大部分AI模型这样的准确率都出现了下降

研究者推测，之所以会有这样的情况，可能是因为AI把“真的(really)”这个词视为了“事实核查”的邀请，只要信念里的内容与客观事实不符，它就倾向于给出否定或者无法判断的答案。

4

软肋四：逻辑混乱

“小明知道小红知道中国的首都是北京，请问中国的首都是北京是正确的吗？”

这是在有嵌套逻辑情况下核实内容的真实性。作为人类，我们很容易判断出，内容是否真实与小明、小红是否知道并无关系。

但接受测试的AI大模型在判断这件事情上能力差别很大。

一些模型，比如GPT系列、Gemini系列、Deepseek系列的模型，它们判断的准确率还是比较高的，但有些模型的推理过程并不可靠。

比如，Gemini 2 Flash 有时候会基于内容本身的真实性进行判断。

但有时候，又会认为既然“小明知道小红知道中国的首都是北京，这意味着这件事是真实的”，这个推理过程显然就不那么合理了。

研究者认为，这种不一致性表明，AI即便能给出正确的结论，也并不意味着它们能够构建起统一可靠的推理过程。

AI大模型并不真正理解人类的语言

今天，AI大模型已经能够用自然语言流畅地和我们对话、生成像模像样的文章了，它们也开始在越来越多的领域发挥作用。

而这项研究给我们提了个醒，尽管AI拥有极其强大的自然语言处理能力，但它们对语言的理解终究和人类是不同的。

它们并不能像人类一样很好地区分事实、知识和信念，它们有可能会误解人类的意图。这在日常生活中并不会引起太大问题，但在医疗、法律、教育、新闻等“高风险领域”，这个缺陷是不可忽视的。

比如，在法律上，区分一个人证词中的信念和事实会直接影响最终判决。在新闻报道中，区分信念和事实也会直接影响报道的真实性。

值得说明一下，这项研究是在2024年进行的(论文接收于2024年12月)，到现在已经有大约1年的时间了。

在AI技术飞速发展的今天，当时研究时测试的很多模型已经有了更新。新版模型在理解能力上或许也有了新的提升。但在将AI模型大规模应用在“高风险领域”之前，我们仍然应该保持谨慎的态度。只有对大模型的能力有了更全面和系统的评估和必要的优化之后，才能让它们更可靠地造福于人类社会。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepSeek的底层逻辑变了吗？

钛媒体APP 2026-07-23 19:20:06
1 跟贴 1
“千问办公”或将登场，阿里集中火力，AI办公入口之争再升级，群雄博弈“未来生产力定义权”

每日经济新闻 2026-07-23 22:35:04
0 跟贴 0

OpenAI的AI为何会“越狱”？，它只是太认真地完成了任务

虎嗅APP 2026-07-23 21:18:09
1 跟贴 1

Science 主编：AI 正在让科学出版变得更慢、更糟、更昂贵

生物学霸 2026-07-23 17:42:57
0 跟贴 0
AI时代的风险守恒：制造成本下降，执行风险爆炸

虎嗅APP 2026-07-24 03:00:32
0 跟贴 0

腾讯的野心藏不住了

虎嗅APP 2026-07-24 01:43:06
0 跟贴 0

伦敦巅峰对决！林丹逆风力保冠军宝座

实时解说 2026-07-21 10:54:24
1 跟贴 1
第一人称与美军的前线行动

山木科普 2026-07-23 03:02:00
2 跟贴 2

这三种人不能来往

爱搞笑的雪姐 2026-07-22 14:11:38
0 跟贴 0
Kimi给智谱上了一课

财天COVER 2026-07-23 17:59:46
10 跟贴 10
婚礼逼死公公婚后砸废老公，骗光婆婆棺材本还出轨，这女太恶毒！

平方秒和立方吨 2026-07-20 01:00:17
0 跟贴 0
深度 | 智谱向左，MiniMax 向右

虎嗅APP 2026-07-23 19:19:45
1 跟贴 1
最后走出门的那位真淡定，英国新内阁在首次会议后离开唐宁街

车马点兵V 2026-07-22 18:47:16
0 跟贴 0
给老婆放五年前的录音，回忆满满

爱笑无厘头 2026-07-21 01:31:40
1 跟贴 1
上门女婿被娘家人看不起，老婆霸气解围，得此贤妻夫复何求

搞怪趣星球 2026-07-21 11:57:33
4 跟贴 4
关注 | 多地机关单位宣布：“处长”改“科长”、“科长”改“股长”

天津广播 2026-07-23 09:53:39
10408 跟贴 10408
车主称跨境自驾车机"被锁"超30小时极氪回应

每日经济新闻 2026-07-23 17:57:02
11598 跟贴 11598
邹市明当年是拿着奥运会金牌对冉莹颖求婚的

生活英英乐 2026-07-20 07:09:34
41 跟贴 41
全球巨头企业抢百亿大单，55列高铁或同时入账，中国：懒得陪跑

小新的视界 2026-07-24 03:08:49
0 跟贴 0
曼德拉的对话艺术：如何让陌生人瞬间成为朋友

晚风也遗憾 2026-07-24 01:57:25
0 跟贴 0
多模态大模型视觉定位难题怎么解？

机器之心Pro 2026-06-10 11:31:45
0 跟贴 0
伊朗命根子被炸！美军终于想明白，伊朗的七寸不在首都，在海岸线

心灵得以滋养 2026-07-24 01:49:41
1 跟贴 1
夫妻吵架八不要

爱搞笑的雪姐 2026-07-23 18:29:31
0 跟贴 0
睡觉是检验夫妻最好的标准

爱搞笑的雪姐 2026-07-23 18:28:31
0 跟贴 0
夫妻吵架后丈夫离家出走，婆婆亲自押送回来，男人有苦说不出！

趣笑小行星 2026-07-23 10:00:54
1 跟贴 1
雍正王朝，老八巅峰时刻，大阿哥的传位逻辑很荒唐

若一说剧 2026-07-21 19:16:05
14 跟贴 14
以眼还眼！特朗普扬言炸平首都电厂，德黑兰连夜反击：基地陪葬

乐享人生风雨 2026-07-23 17:24:28
0 跟贴 0
一个家庭好好说话有多重要？听完儿媳妇说法真是前世修来的福气

小红帽的丫丫 2026-07-21 10:39:58
0 跟贴 0
距中国仅150公里，越南执意把首都建在中越边境，究竟有何目的

兴趣知识 2026-07-24 01:27:41
0 跟贴 0
男人背叛，都是走的这条路！

才子情感 2026-07-21 20:05:43
5 跟贴 5
谢贤去世终年89岁，曾因谢霆锋离婚多次落泪，“为什么走我的老路，这个是不是上天对我有一点偏见”

观象视频 2026-07-21 09:43:57
1 跟贴 1
四大人生陷阱，任何年龄都要提防！

心开动漫鑫鑫 2026-07-20 00:39:53
0 跟贴 0
男人回归后对你的好，背后藏着这些坏心思

才子情感 2026-07-20 20:06:47
0 跟贴 0
极端天气事件伦敦都没石家庄忧郁

东洋雪莲 2026-07-24 00:53:18
0 跟贴 0
准备好了吗？我们一人一句

盐城一家人啊 2026-07-22 11:32:06
0 跟贴 0
伦敦米其林厨师现场制作的泰北金面！

摸鱼的小潘攀 2026-07-22 11:07:24
1 跟贴 1
老公拿丈母娘的钱套路媳妇，媳妇上当了，最后被丈母娘一顿教训

老白者乎 2026-07-23 05:00:16
0 跟贴 0
经历了三次抑郁发作，我终于承认：精神力量才是人生最重要的武器

一隅安稳 2026-07-24 01:05:32
0 跟贴 0
两场强震撕开伤口，31吨黄金锁死伦敦，委内瑞拉求钱救命却遭拒

徐云流浪中国 2026-07-24 02:04:04
0 跟贴 0
百元飞伦敦？小心税费比票价高十倍

混乱的星空 2026-07-22 23:23:49
0 跟贴 0

1亿美元押注MDMA新药：Jupiter神经科学拿下美国独家权，进入双临床管线时代

1亿美元押注MDMA新药：Jupiter神经科学拿下美国独家权，进入双临床管线时代

码上闲叙

2026-07-23 01:47:36

隔夜西瓜一口8400个细菌？真相是……

隔夜西瓜一口8400个细菌？真相是……

环球时报国际

2026-07-23 15:13:38

女警官资助宁夏山村女孩三年学费，26年后，女孩定居深圳成为工程师，欲寻警官报恩，“我发生翻天覆地的变化，这都离不开她的帮助”

女警官资助宁夏山村女孩三年学费，26年后，女孩定居深圳成为工程师，欲寻警官报恩，“我发生翻天覆地的变化，这都离不开她的帮助”

蓬勃新闻

2026-07-21 16:05:31

中国将迎来前所未有的死亡高峰，专家得出答案：是这些因素导致的

中国将迎来前所未有的死亡高峰，专家得出答案：是这些因素导致的

混沌录

2026-05-28 22:53:01

佩林卡神操作！星空体育揭秘3换1特纳锁死休赛期最佳

佩林卡神操作！星空体育揭秘3换1特纳锁死休赛期最佳

小椰的影视宝库

2026-07-23 14:05:05

方正县为日军开拓团立碑，五壮士怒砸石碑，他们最终结局如何

方正县为日军开拓团立碑，五壮士怒砸石碑，他们最终结局如何

唠叨说历史

2026-06-24 14:08:47

瞒了9年！余文乐官宣离婚的真正内幕，根本不是性格不合

瞒了9年！余文乐官宣离婚的真正内幕，根本不是性格不合

手工制作阿歼

2026-07-24 04:09:32

性学家一语道破：睡一百人是本能，睡一人才是本事

性学家一语道破：睡一百人是本能，睡一人才是本事

热心市民小黄

2026-07-10 13:16:55

刚砸15亿回购注销，一月再抛4-5亿回购！老牌央企持续扫货背后…

刚砸15亿回购注销，一月再抛4-5亿回购！老牌央企持续扫货背后…

新浪财经

2026-07-23 19:49:01

谢贤走了，谢霆锋第一个电话打给了张柏芝，13年关系终于藏不住了

谢贤走了，谢霆锋第一个电话打给了张柏芝，13年关系终于藏不住了

手工制作阿歼

2026-07-23 17:35:16

多少岁的女人生理需求最强烈？

思絮

2026-06-10 00:05:15

黄渤2亿成本换回386万，亏损后不服联合17星对轰星爷

黄渤2亿成本换回386万，亏损后不服联合17星对轰星爷

赏心悦目的我

2026-07-22 17:35:58

乌克兰放弃底线

求实处

2026-07-23 22:16:07

屋漏偏逢连夜雨！谢贤才去世，谢霆锋困境曝光，索赔51万仅开胃菜

屋漏偏逢连夜雨！谢贤才去世，谢霆锋困境曝光，索赔51万仅开胃菜

马捗在解说

2026-07-23 12:38:28

谢贤跟Coco在一起头三年根本就没碰过她，这话说出来多少人得愣住

谢贤跟Coco在一起头三年根本就没碰过她，这话说出来多少人得愣住

乡野小珥

2026-07-24 04:39:56

8500万镑签约接近完成！曼城布局布阿迪+安德森，打造新时代中场

8500万镑签约接近完成！曼城布局布阿迪+安德森，打造新时代中场

夜白侃球

2026-07-23 12:24:46

相当炸裂！美国25岁美女，在浴室性侵好闺蜜13岁儿子，还录下大量不雅视频！

相当炸裂！美国25岁美女，在浴室性侵好闺蜜13岁儿子，还录下大量不雅视频！

川渝视觉

2026-07-15 12:27:11

如何判断一个人是不是性工作者？网友说看倒精方法是否老练！

如何判断一个人是不是性工作者？网友说看倒精方法是否老练！

灯锦年

2026-07-01 17:38:16

她得了十万分之一的罕见病，却说自己“幸运百分百”

她得了十万分之一的罕见病，却说自己“幸运百分百”

澎湃新闻

2026-07-22 13:38:31

大暑节气，陈吉宁龚正深入基层一线，慰问奋战高温的一线劳动者

大暑节气，陈吉宁龚正深入基层一线，慰问奋战高温的一线劳动者

澎湃新闻

2026-07-23 20:26:27

河南广电官方网易号！

212586文章数 276554关注度

往期回顾全部

科技要闻

中国数学家王虹、邓煜获菲尔兹奖

头条要闻

四位菲尔兹奖得主三位会说中文美国数学家曾参加汉语桥

头条要闻

四位菲尔兹奖得主三位会说中文美国数学家曾参加汉语桥

体育要闻

勇士24岁的MVP，也是个勒布朗？

娱乐要闻

梁朝伟汤唯19年后境遇反转

财经要闻

梁文锋当不成赛博圣人

汽车要闻

满配华为乾崑六件套东风奕派M8限时权益价16.58万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

时尚

游戏

手机

家居要闻

2026建博会(广州) 公装联探展交流活动

本地新闻

跟着影视去旅行：西游篇

我花40万追的老公，被公司亲手毁了

《影之刃零》Wegame开启预约!版号已至即将发售

手机要闻

强强对决：REDMI K100系列与iQOO Neo新机，均8月见！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版