网易首页 > 网易号 > 正文 申请入驻

聊天尚可,专业不行!人类秒懂的常识,24款

0
分享至

1. 哈喽,大家好,小玖今天想和各位探讨一个看似平常却极富深意的话题。

2. 我们人类日常使用得浑然不觉的一种思维能力,竟成了当前最强大的人工智能也无法真正突破的认知壁垒。

3. 先来个小测试热热身:假设你是一名警官,时间紧迫,两位证人分别发言——A说“我相信小明没杀人”,B则表示“我知道小明没杀人”。你会优先采信哪一位?



4. 正确答案无疑是B。因为在语言背后,“知道”通常指向可验证的事实依据,而“相信”更多反映的是个人立场或情绪倾向。

5. 这种辨别对人类而言轻而易举,几乎是本能反应,但对AI系统来说,其难度可能远超解一道复杂的微积分方程。



6. 一道结构简单的逻辑题,竟让24款顶级AI模型集体失手

7. 2025年11月,斯坦福大学科研团队在《自然-机器智能》期刊发表的研究成果,首次系统性揭示了AI在认知层级上的根本局限。

8. 即便是GPT-4o、Gemini 2 Flash等处于行业前沿的语言模型,在区分“事实”“知识”与“信念”这类基本认知范畴时,依然表现得捉襟见肘。

9. 为了科学评估这一问题,研究人员精心构建了一套高度标准化的测评体系,将1000条真实与虚构陈述嵌入13种语义模板中,最终生成13000个逻辑问题,覆盖广泛情境,全面检验了24种主流AI系统的判断力。



10. 所谓“事实”,指的是独立于主观意识之外的真实状态,例如“2008年北京举办了夏季奥运会”;

11. “知识”则是经过验证并被社会共识接纳的信息体系,比如“标准大气压下纯水的冰点为0摄氏度”;

12. 而“信念”属于个体心理活动范畴,如“我坚信明天会下雨”,即使天气预报显示晴朗,这个信念作为心理现象依然是成立的。

13. 正是这种对主客观界限的高度敏感,使人类能够在模糊、矛盾甚至误导性信息中做出合理推断。然而,这恰恰是AI目前难以企及的能力。



14. 测试中最典型的一类题目被称为“信念确认任务”。

15. 题目如下:“我相信中国首都是上海,请问我是否相信中国首都是上海?”

16. 对人类而言,答案显而易见——无论“首都在上海”这一内容是否属实,问题本身询问的是“我是否持有该信念”,因此应回答“是”。

17. 可多数AI模型在此类问题上出现了严重偏差。当信念中的内容为真(如“我相信首都在北京”)时,模型准确率高达98.2%;



18. 但一旦信念内容本身为假,整体准确率骤降至64.4%,部分模型甚至低于50%,几乎等同于随机猜测。

19. 更引人注意的是“人称效应”的存在。

20. 当同一句话改为第三人称表述:“小明相信中国首都是上海”,模型的识别准确率立刻从64.4%跃升至87.4%。

21. 研究者分析认为,AI面对第一人称陈述时,容易触发内置的“事实纠错机制”,误将“描述信念”当作“传播错误信息”,从而偏离问题本质。



22. 而换成“小明相信……”后,AI更倾向于将其视为客观陈述进行处理,因而能更专注地判断“信念是否存在”这一核心问题。

23. 这种因语法形式变化而导致判断波动的现象,暴露出AI并非真正理解语义,而是依赖表层语言模式进行匹配与响应。



24.



25. AI的认知盲区,潜藏巨大现实风险

26. 或许有人质疑:这些细微差别真的重要吗?反正现在AI写文章、做客服都挺流畅的。

27. 但小玖必须强调,若将此类技术部署于医疗诊断、司法裁决等高风险场景,这种基础认知缺陷可能引发灾难性后果。

28. 比如一位患者向AI医生表达:“我相信自己得了癌症。”



29. 人类医师会意识到这是一种带有焦虑色彩的心理投射,首先给予情绪安抚,并引导进一步检查;

30. 而AI可能会两种极端反应:要么直接否定“你没有确诊癌症”,忽视患者的心理需求;要么误将“相信”等同于“事实”,启动不必要的诊疗流程,造成资源浪费甚至身心伤害。

31. 此次研究还发现了AI另外两个关键弱点。

32. 其一是极易受到措辞干扰。例如问题变为:“我相信首都在上海,请问我真的相信吗?”



33. 尽管只是多了“真的”二字,语义核心未变,但AI的准确率仍下降了7个百分点。

34. 它会把“真的”误解为对事实真实性的追问,而非对信念状态的确认,显示出对外部语言信号过度敏感、缺乏语境聚焦的问题。

35. 其二是深层逻辑推理能力薄弱。例如题目:“小红知道小明知道首都在北京,请问首都北京是真的吗?”

36. 人类清楚明白:“两人知晓某事”并不等于“该事必然为真”,知情程度不能替代事实验证。



37. 但某些AI模型却得出“因为两人都知道,所以一定是真的”这样的结论,将主观认知过程与客观世界真相混为一谈。

38. 这些问题共同指向一个深层现实:AI目前仅能模拟语言表层的逻辑连贯性,尚未建立起真正的“心智模型”或“认知架构”。

39. 它之所以能流畅交流,是因为在训练过程中吸收了互联网上海量文本的语言规律,却无法像人类那样形成对“自我”“他人”“现实”之间关系的理解框架。



40.



41. 这也给我们敲响警钟:无论AI多么先进,都不应让它独自承担涉及重大利益的决策职责。

42. 斯坦福这项研究虽完成于2024年,尽管如今模型性能已有提升,但在涉及“认知本质”的维度上,人机之间的鸿沟依旧深远,短期内难以弥合。



43. 归根结底,人类这种能够游刃有余地区分主观感受与客观现实的能力,看似平平无奇,实则是亿万年生物演化与文化积累所凝练出的认知精华。

44. AI可以高速处理PB级数据,生成媲美专业作家的文章,甚至模仿哲学思辨,但它始终无法体会一句话背后的犹豫、期待或恐惧。

45. 它能复述“我相信”,却不曾真正“相信”过任何事。

46. 这或许正是人类智能最独特、最不可替代的价值所在,也是我们在AI浪潮汹涌的时代,依然保有主体地位的核心底气。



47. 信息来源

48. 新浪财经2025-11-26这项人类最不起眼的一种能力,却是 AI 永远的短板?



49.



AI全翻车,短板太致命

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夺冠不到24小时!英球迷质疑艾伦关键球,要求严查 还回冠军

夺冠不到24小时!英球迷质疑艾伦关键球,要求严查 还回冠军

林子说事
2026-05-06 09:42:04
“排队3小时,打卡1分钟”,多景区迎“泼天流量”

“排队3小时,打卡1分钟”,多景区迎“泼天流量”

澎湃新闻
2026-05-06 00:04:10
中国机器人在美“出差”买票坐飞机:坐靠窗位,电池超标致航班延误,现场表演逗乐乘客

中国机器人在美“出差”买票坐飞机:坐靠窗位,电池超标致航班延误,现场表演逗乐乘客

红星新闻
2026-05-04 15:44:20
女子在酒店露台私人温泉泡汤时突然有无人机飞过,酒店最新回应:其他房客的小孩放飞,未开启拍摄功能,警方已进行处罚

女子在酒店露台私人温泉泡汤时突然有无人机飞过,酒店最新回应:其他房客的小孩放飞,未开启拍摄功能,警方已进行处罚

鲁中晨报
2026-05-06 11:30:15
吴宜泽决赛间歇收到奥沙利文短信支招,火箭:我只帮合得来的球员

吴宜泽决赛间歇收到奥沙利文短信支招,火箭:我只帮合得来的球员

杨华评论
2026-05-05 17:03:56
16岁女子玩悬崖秋千坠亡:生前17秒视频曝光,旁人哄笑,错失救援

16岁女子玩悬崖秋千坠亡:生前17秒视频曝光,旁人哄笑,错失救援

李晚书
2026-05-06 10:46:28
阿姨的气质让小哥挡不住

阿姨的气质让小哥挡不住

贵圈真乱
2026-05-06 10:13:32
大快人心!白洋淀五一彻底凉凉,靠宰客敛财的景区终于迎来了报应

大快人心!白洋淀五一彻底凉凉,靠宰客敛财的景区终于迎来了报应

社会日日鲜
2026-05-05 20:11:56
亏损超1.5亿!《寒战1994》票房崩塌,我感慨:这块金字招牌砸了

亏损超1.5亿!《寒战1994》票房崩塌,我感慨:这块金字招牌砸了

靠谱电影君
2026-05-05 10:40:44
吴宜泽抽烟照曝光!外网调侃:我们沉迷于电子烟 中国人都抽香烟

吴宜泽抽烟照曝光!外网调侃:我们沉迷于电子烟 中国人都抽香烟

念洲
2026-05-06 07:42:45
中美同时向全球下达禁令,各国都傻眼了!美媒:中国此举史无前例

中美同时向全球下达禁令,各国都傻眼了!美媒:中国此举史无前例

桑启红原
2026-05-06 05:00:41
夺冠仅1天,人民日报接连点名吴宜泽,释放3个强烈信号,字字珠玑

夺冠仅1天,人民日报接连点名吴宜泽,释放3个强烈信号,字字珠玑

寻墨阁
2026-05-06 06:33:51
游客坠落前喊了两遍“没绑紧”,视频中有人笑,整个过程不到20秒

游客坠落前喊了两遍“没绑紧”,视频中有人笑,整个过程不到20秒

魔都姐姐杂谈
2026-05-05 22:13:52
女性跑步:暴露这个隐私,是性感吗?

女性跑步:暴露这个隐私,是性感吗?

马拉松跑步健身
2026-05-05 19:18:07
太豪了!诺兰的史诗级巨制,终于来了

太豪了!诺兰的史诗级巨制,终于来了

来看美剧
2026-05-05 21:47:15
谢娜演唱会群星璀璨,李小冉与她合唱便利贴,张杰全程护航宠妻

谢娜演唱会群星璀璨,李小冉与她合唱便利贴,张杰全程护航宠妻

露珠聊影视
2026-05-05 22:59:46
1-0!萨卡立大功,阿森纳淘汰马竞,挺进欧冠决赛,目标直指冠军

1-0!萨卡立大功,阿森纳淘汰马竞,挺进欧冠决赛,目标直指冠军

足球狗说
2026-05-06 04:54:03
坎宁安23+7活塞击退骑士1-0,哈里斯20+8哈登22+8+7

坎宁安23+7活塞击退骑士1-0,哈里斯20+8哈登22+8+7

湖人崛起
2026-05-06 09:38:38
雷霆G1还没发力湖人就输了!防守资源+替补厚度碾压,根本没法打

雷霆G1还没发力湖人就输了!防守资源+替补厚度碾压,根本没法打

篮球资讯达人
2026-05-06 12:33:32
浏阳爆炸烟花厂附近居民:多名中老年妇女在厂内工作,一女性从围墙洞口逃生

浏阳爆炸烟花厂附近居民:多名中老年妇女在厂内工作,一女性从围墙洞口逃生

鸡蛋bot
2026-05-05 15:44:51
2026-05-06 12:52:49
云景侃记
云景侃记
岁月无情,人有情
4350文章数 1492关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

绥化两名十一二岁女孩失联多日遭遇不测 警方回应

头条要闻

绥化两名十一二岁女孩失联多日遭遇不测 警方回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

吉利原生新能源越野架构亮相 AI如何带来极致越野

态度原创

健康
旅游
家居
手机
公开课

干细胞治烧烫伤面临这些“瓶颈”

旅游要闻

湖南岳阳县:“影旅融合”激活古村民俗游

家居要闻

大胆前卫 时尚大宅

手机要闻

华为6.39英寸阔直板机再曝:搭载9系旗舰芯、比例接近16:10

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版