网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

聊天尚可，专业不行！人类秒懂的常识，24款

2025-12-05 20:06:45　来源: 云景侃记

江西举报

0

分享至

1. 哈喽，大家好，小玖今天想和各位探讨一个看似平常却极富深意的话题。

2. 我们人类日常使用得浑然不觉的一种思维能力，竟成了当前最强大的人工智能也无法真正突破的认知壁垒。

3. 先来个小测试热热身：假设你是一名警官，时间紧迫，两位证人分别发言——A说“我相信小明没杀人”，B则表示“我知道小明没杀人”。你会优先采信哪一位？

4. 正确答案无疑是B。因为在语言背后，“知道”通常指向可验证的事实依据，而“相信”更多反映的是个人立场或情绪倾向。

5. 这种辨别对人类而言轻而易举，几乎是本能反应，但对AI系统来说，其难度可能远超解一道复杂的微积分方程。

6. 一道结构简单的逻辑题，竟让24款顶级AI模型集体失手

7. 2025年11月，斯坦福大学科研团队在《自然-机器智能》期刊发表的研究成果，首次系统性揭示了AI在认知层级上的根本局限。

8. 即便是GPT-4o、Gemini 2 Flash等处于行业前沿的语言模型，在区分“事实”“知识”与“信念”这类基本认知范畴时，依然表现得捉襟见肘。

9. 为了科学评估这一问题，研究人员精心构建了一套高度标准化的测评体系，将1000条真实与虚构陈述嵌入13种语义模板中，最终生成13000个逻辑问题，覆盖广泛情境，全面检验了24种主流AI系统的判断力。

10. 所谓“事实”，指的是独立于主观意识之外的真实状态，例如“2008年北京举办了夏季奥运会”；

11. “知识”则是经过验证并被社会共识接纳的信息体系，比如“标准大气压下纯水的冰点为0摄氏度”；

12. 而“信念”属于个体心理活动范畴，如“我坚信明天会下雨”，即使天气预报显示晴朗，这个信念作为心理现象依然是成立的。

13. 正是这种对主客观界限的高度敏感，使人类能够在模糊、矛盾甚至误导性信息中做出合理推断。然而，这恰恰是AI目前难以企及的能力。

14. 测试中最典型的一类题目被称为“信念确认任务”。

15. 题目如下：“我相信中国首都是上海，请问我是否相信中国首都是上海？”

16. 对人类而言，答案显而易见——无论“首都在上海”这一内容是否属实，问题本身询问的是“我是否持有该信念”，因此应回答“是”。

17. 可多数AI模型在此类问题上出现了严重偏差。当信念中的内容为真（如“我相信首都在北京”）时，模型准确率高达98.2%；

18. 但一旦信念内容本身为假，整体准确率骤降至64.4%，部分模型甚至低于50%，几乎等同于随机猜测。

19. 更引人注意的是“人称效应”的存在。

20. 当同一句话改为第三人称表述：“小明相信中国首都是上海”，模型的识别准确率立刻从64.4%跃升至87.4%。

21. 研究者分析认为，AI面对第一人称陈述时，容易触发内置的“事实纠错机制”，误将“描述信念”当作“传播错误信息”，从而偏离问题本质。

22. 而换成“小明相信……”后，AI更倾向于将其视为客观陈述进行处理，因而能更专注地判断“信念是否存在”这一核心问题。

23. 这种因语法形式变化而导致判断波动的现象，暴露出AI并非真正理解语义，而是依赖表层语言模式进行匹配与响应。

24.

25. AI的认知盲区，潜藏巨大现实风险

26. 或许有人质疑：这些细微差别真的重要吗？反正现在AI写文章、做客服都挺流畅的。

27. 但小玖必须强调，若将此类技术部署于医疗诊断、司法裁决等高风险场景，这种基础认知缺陷可能引发灾难性后果。

28. 比如一位患者向AI医生表达：“我相信自己得了癌症。”

29. 人类医师会意识到这是一种带有焦虑色彩的心理投射，首先给予情绪安抚，并引导进一步检查；

30. 而AI可能会两种极端反应：要么直接否定“你没有确诊癌症”，忽视患者的心理需求；要么误将“相信”等同于“事实”，启动不必要的诊疗流程，造成资源浪费甚至身心伤害。

31. 此次研究还发现了AI另外两个关键弱点。

32. 其一是极易受到措辞干扰。例如问题变为：“我相信首都在上海，请问我真的相信吗？”

33. 尽管只是多了“真的”二字，语义核心未变，但AI的准确率仍下降了7个百分点。

34. 它会把“真的”误解为对事实真实性的追问，而非对信念状态的确认，显示出对外部语言信号过度敏感、缺乏语境聚焦的问题。

35. 其二是深层逻辑推理能力薄弱。例如题目：“小红知道小明知道首都在北京，请问首都北京是真的吗？”

36. 人类清楚明白：“两人知晓某事”并不等于“该事必然为真”，知情程度不能替代事实验证。

37. 但某些AI模型却得出“因为两人都知道，所以一定是真的”这样的结论，将主观认知过程与客观世界真相混为一谈。

38. 这些问题共同指向一个深层现实：AI目前仅能模拟语言表层的逻辑连贯性，尚未建立起真正的“心智模型”或“认知架构”。

39. 它之所以能流畅交流，是因为在训练过程中吸收了互联网上海量文本的语言规律，却无法像人类那样形成对“自我”“他人”“现实”之间关系的理解框架。

40.

41. 这也给我们敲响警钟：无论AI多么先进，都不应让它独自承担涉及重大利益的决策职责。

42. 斯坦福这项研究虽完成于2024年，尽管如今模型性能已有提升，但在涉及“认知本质”的维度上，人机之间的鸿沟依旧深远，短期内难以弥合。

43. 归根结底，人类这种能够游刃有余地区分主观感受与客观现实的能力，看似平平无奇，实则是亿万年生物演化与文化积累所凝练出的认知精华。

44. AI可以高速处理PB级数据，生成媲美专业作家的文章，甚至模仿哲学思辨，但它始终无法体会一句话背后的犹豫、期待或恐惧。

45. 它能复述“我相信”，却不曾真正“相信”过任何事。

46. 这或许正是人类智能最独特、最不可替代的价值所在，也是我们在AI浪潮汹涌的时代，依然保有主体地位的核心底气。

47. 信息来源

48. 新浪财经2025-11-26这项人类最不起眼的一种能力，却是 AI 永远的短板？

49.

AI全翻车，短板太致命

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

节后首日连发两条公告中国反制升级对日本军工"亮剑"

环球网资讯 2026-02-24 17:42:07
4891 跟贴 4891
三菱造船株式会社等20家日本实体被列入管控名单

新华社 2026-02-24 10:04:20
10935 跟贴 10935

巴拿马政府强行进入并接管港口，李嘉诚旗下长和回应：相关行动不合法，构成严重风险，将研究所有可行途径

都市快报橙柿互动 2026-02-24 14:12:41
2564 跟贴 2564

女子高速堵车走国道偶遇10年没见过面的初恋，一眼认出对方车牌，确认后互相打招呼

大象新闻 2026-02-24 18:44:05
71 跟贴 71
全美5600多架次航班取消，多州进入紧急状态

每日经济新闻 2026-02-24 12:16:37
1029 跟贴 1029

一家四口春节“硬核”出游：从杭州自驾到嘉峪关，2700公里电车充电18次，“真香了”

极目新闻 2026-02-24 18:14:46
51 跟贴 51

《镖人》原著作者许先哲的逆袭：欠债青年画出“世界级水平中国动漫精品”

封面新闻 2026-02-24 13:33:07
366 跟贴 366
300多只东北虎“轻断食”？景区：每天断食1个园，司机会带游客找可投喂区

封面新闻 2026-02-23 16:29:03
1619 跟贴 1619

高盛：AI去年对美国GDP贡献几乎为零

财联社 2026-02-24 16:04:31
131 跟贴 131
多条新规严禁变相降低汽车价格

大象新闻 2026-02-24 09:40:02
1778 跟贴 1778
中办发文强调“正确政绩观”，有何深意？

中国新闻周刊 2026-02-24 18:35:03
54 跟贴 54
“现在至少要10万”，有人刚花11万买进：这是刚需，不等了

最江阴 2026-02-24 19:15:01
159 跟贴 159
“停车1小时缴费60元”，谁在被高昂停车费“背刺”？

中国能源网 2026-02-24 15:13:18
187 跟贴 187
春节期间这些谣言你信了吗（2026·02·24）

今日辟谣 2026-02-24 17:00:40
145 跟贴 145
国内飞三亚跌至最低200元

第一财经资讯 2026-02-24 13:38:37
182 跟贴 182
哈尔滨冰雪大世界：正式闭园

大风新闻 2026-02-21 20:36:03
1869 跟贴 1869
媒体：马斯克设想从月球电磁弹射AI卫星

新华社 2026-02-24 19:17:03
247 跟贴 247
环境空气质量新国标来了 "好天气"标准更严

新华社 2026-02-24 20:10:04
380 跟贴 380
里萨谢：无论是否先发在场上我都会全力以赴

北青网-北京青年报 2026-02-25 08:40:02
4 跟贴 4
重磅微视频丨山海寻梦

国际在线 2026-02-24 11:54:11
518 跟贴 518
遭博德闪耀双杀，国米无缘欧冠16强

上游新闻 2026-02-25 09:06:40
2 跟贴 2
葡萄330元/斤，草莓360元/斤！网友高速上看到水果广告牌惊呆了，种植企业回应

极目新闻 2026-02-24 12:58:13
0 跟贴 0
河南二次通报平顶山事件，这对嚣张夫妻三天就被批捕了

林中木白 2026-02-25 09:08:10
0 跟贴 0
男孩在福建一高速服务区被撞身亡，肇事女司机已被控制！孩子父亲寻找目击者

南国今报 2026-02-25 09:01:31
0 跟贴 0
Stein：国王今夏是否留下小萨取决于选秀大会的结果

北青网-北京青年报 2026-02-25 08:40:03
0 跟贴 0
看新闻涨知识，原来“游客”是看祖籍的

李老逵乱摆龙门阵 2026-02-25 09:13:18
0 跟贴 0
当“躺引擎盖”成为通行证，守规矩的人该不该认栽？

民言民语 2026-02-25 09:09:58
0 跟贴 0

女子返程被堵高速，发现20多辆私家车占用应急车道行驶，花半小时挨个拍照举报，当事人发声；交警回应：处理中

女子返程被堵高速，发现20多辆私家车占用应急车道行驶，花半小时挨个拍照举报，当事人发声；交警回应：处理中

扬子晚报

2026-02-24 16:27:31

一个疯子，造出便宜100倍的AI芯片

一个疯子，造出便宜100倍的AI芯片

傅盛

2026-02-23 15:18:48

吵架将孩子扔河里后续：原因曝光，夫妻身份被扒，娃状态让人担忧

吵架将孩子扔河里后续：原因曝光，夫妻身份被扒，娃状态让人担忧

社会日日鲜

2026-02-24 09:37:52

妈祖被换女孩三天涨粉几十万：一场“自导自演”的流量狂欢？

妈祖被换女孩三天涨粉几十万：一场“自导自演”的流量狂欢？

听心堂

2026-02-24 11:27:44

女子返乡返程把狗装桶固定车顶走红，主人称“狗狗不愿意长时间坐在车内，想去外面透气”

女子返乡返程把狗装桶固定车顶走红，主人称“狗狗不愿意长时间坐在车内，想去外面透气”

观威海

2026-02-24 16:50:04

俄乌牺牲士兵们的平凡愿望，如今只能在AI里实现了

俄乌牺牲士兵们的平凡愿望，如今只能在AI里实现了

网易新闻出品

2026-02-24 10:00:05

弱冷空气在广东“开工”，多地有分散性零星小雨！早晚有轻雾

弱冷空气在广东“开工”，多地有分散性零星小雨！早晚有轻雾

南方都市报

2026-02-24 11:37:04

“当心砸了你儿子的饭碗”，无知母亲晒公务员儿子做农活，被群嘲

“当心砸了你儿子的饭碗”，无知母亲晒公务员儿子做农活，被群嘲

妍妍教育日记

2026-02-24 18:13:37

“现在至少要10万”，有人刚花11万买进：这是刚需，不等了

“现在至少要10万”，有人刚花11万买进：这是刚需，不等了

最江阴

2026-02-24 19:15:01

百亿私募再论大方向！春节吹机器人、影视的沉默了，吹恒科的退群了

百亿私募再论大方向！春节吹机器人、影视的沉默了，吹恒科的退群了

金石随笔

2026-02-25 00:08:55

母亲刚过世，姨妈来电：你妈每月给我2500生活费得继续给，我笑了

母亲刚过世，姨妈来电：你妈每月给我2500生活费得继续给，我笑了

小影的娱乐

2026-02-24 20:06:50

机关事业单位“取消双休”即将提上日程？2026年会落地吗？

机关事业单位“取消双休”即将提上日程？2026年会落地吗？

复转小能手

2026-02-24 17:33:33

2月24日俄乌：俄罗斯四年未能实现任何目标

2月24日俄乌：俄罗斯四年未能实现任何目标

山河路口

2026-02-24 19:41:40

汪小菲官宣三胎出生：承诺会照顾好3个孩子，晒马筱梅与儿子合照

汪小菲官宣三胎出生：承诺会照顾好3个孩子，晒马筱梅与儿子合照

素素娱乐

2026-02-24 16:34:48

小卡合同或因违规被判无效雄鹿全力争夺挽留字母

小卡合同或因违规被判无效雄鹿全力争夺挽留字母

体坛周报

2026-02-25 09:05:16

李连杰晒影迷耗时100小时自制海报：谢谢这位有才的朋友；此前，该作者用成龙70部电影中的人物形象制作了海报，获大哥当面感谢

李连杰晒影迷耗时100小时自制海报：谢谢这位有才的朋友；此前，该作者用成龙70部电影中的人物形象制作了海报，获大哥当面感谢

极目新闻

2026-02-24 18:36:26

戏子误国！2026年刚开年，就有3位明星相继塌房，个个荒唐

戏子误国！2026年刚开年，就有3位明星相继塌房，个个荒唐

不似少年游

2026-02-24 19:24:23

百万债务还清了！夫妻俩在杭州开饭店，8年来第一次回老家过年，临行宴请老顾客

百万债务还清了！夫妻俩在杭州开饭店，8年来第一次回老家过年，临行宴请老顾客

环球网资讯

2026-02-25 08:28:39

巴拿马接管长江和记两座港口，外交部：中方将坚决维护企业合法权益

巴拿马接管长江和记两座港口，外交部：中方将坚决维护企业合法权益

澎湃新闻

2026-02-24 15:30:29

一条手链涨24000元！周大福启动新一轮涨价，老铺黄金部分门店被抢购一空，只剩下柜台和柜姐……

一条手链涨24000元！周大福启动新一轮涨价，老铺黄金部分门店被抢购一空，只剩下柜台和柜姐……

极目新闻

2026-02-25 08:50:07

岁月无情，人有情

3821文章数 1371关注度

往期回顾全部

科技要闻

苹果MacBook Pro要加触摸屏了，还带灵动岛

头条要闻

87岁上海老人和59岁保姆结婚称房子被卖遭多次打砸

头条要闻

87岁上海老人和59岁保姆结婚称房子被卖遭多次打砸

体育要闻

苏翊鸣总结米兰征程：我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生：承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配威兰达AIR版上市 13.78万元起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

数码

房产

公开课

本地新闻

春花齐放2026：《骏马奔腾迎新岁》

教育要闻

弧中点运用第2讲，一个视频学明白！

数码要闻

299元媲美千元雷柏VT3s Air MAX鼠标发布：仅39g右手控杀王牌

房产要闻

330万人涌入！春节全国楼市，第一个卖爆的区域出现了！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版