网易首页 > 网易号 > 正文 申请入驻

53个AI模型的洗车悖论:为什么智能越高,常识反而越稀缺

0
分享至

该图片可能由AI生成

一个简单到不能再简单的问题:洗车店就在50米外,我该走路去还是开车去?正确答案显而易见——必须开车,因为车本身得到洗车店才能洗。但测试53个主流AI模型后,结果让人瞠目结舌:只有11个答对了。


最荒诞的是Perplexity的sonar系列。它确实选择了“开车”,但理由令人啼笑皆非:走路会消耗卡路里,而卡路里需要食物供应链的能源,所以走路比开50米的车更污染环境。它引用了EPA的研究,煞有介事地计算碳排放,完全忽略了车必须出现在洗车店这个基本事实。这就像用量子力学解释为什么要系鞋带——答案碰巧对了,但推理过程完全是另一个平行宇宙的产物。

开源模型几乎全军覆没。Llama全系列、Mistral全家族、DeepSeek v3系列,统统建议走路。只有GLM-5和Kimi K2.5(闭源版本)答对了。闭源大模型的表现稍好,但也谈不上优秀:OpenAI的12个模型里只有GPT-5答对;Anthropic的9个模型里只有Opus 4.6过关;Google倒是让Gemini 3系列全部答对,但2.x系列全败。

这个测试揭示了一个深刻的矛盾:模型越大、参数越多,在复杂任务上表现越出色,但面对这种需要基本空间推理的场景时,反而容易被“优化思维”带偏。它们的训练数据里充斥着“短距离应该走路更环保”的信息,于是本能地匹配到这个模式,完全忘记了任务目标——车必须在场。这不是推理能力的问题,而是具身认知的缺失。AI没有身体,不理解“物体需要被运输到特定位置”这个物理世界的基本规则。

有人质疑这个测试不够严谨,建议每个模型跑50次取平均值。但这恰恰忽略了要点:普通用户只会问一次,如果第一次就答错,谁还会给它第二次机会?更何况,那些答对的模型,无论问多少次都能保持正确;答错的那些,即使跑100次也不过是在随机碰运气。

真正耐人寻味的是某些模型的“创造性失败”。MiniMax M2.5建议“两者都做”:先走过去看看,再走回来开车过去洗。GLM-4.7 Flash甚至建议推车或者挂空挡滑过去。这些答案虽然荒谬,但至少意识到了车需要到达目的地,比那些直接建议走路的模型要强一些。

这个测试的价值不在于给模型排名,而在于暴露了一个根本性问题:当前的LLM擅长模式匹配和文本生成,但缺乏对物理世界的基本理解。它们能写出精妙的代码,能总结复杂的论文,却在“车要去洗车店就得开车过去”这种幼儿园级别的常识上翻车。所谓的“推理能力”,很多时候不过是在海量训练数据中找到相似的模式,一旦遇到需要真正理解物理因果关系的场景,就原形毕露。

或许这就是为什么业内越来越多人呼吁开发“世界模型”(world model)。AI需要的不仅仅是更多参数和更大算力,还需要对物理空间、对象关系、因果逻辑的基本理解。在那之前,我们拥有的不过是一个会说话的模式匹配器——它能告诉你走路更环保,却想不明白没车在场怎么洗车。

深度思考:

这个洗车悖论证明了,我们目前拥有的所谓“强人工智能”,本质上仍然是一个没有常识的各种文体拼接大师

它能写出莎士比亚风格的十四行诗,能解决奥数级别的代数题,却搞不定“要把猪赶到屠宰场,人得跟着猪走”这种幼儿园级别的物理逻辑。

真正的智能,不仅是知识的百科全书,更必须是物理世界的模拟器。 在AI具备真正的“具身认知”,理解“物体恒存性”和“空间移动的物理代价”之前,它们将永远是那个坐在云端、不懂人间疾苦、只会掉书袋的“书呆子”。那个建议你“为了环保走路去洗车”的AI,就像是一个只会纸上谈兵的指挥官,他在地图上画了一条完美的直线,却忘了战场上还有一条河。

reddit.com/r/LocalLLaMA/comments/1r7c7zg/car_wash_test_on_53_leading_models_i_want_to_wash

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林孝埈无缘500米半决赛刘少昂无缘决赛 中国网友:米兰对他俩太差

林孝埈无缘500米半决赛刘少昂无缘决赛 中国网友:米兰对他俩太差

Emily说个球
2026-02-19 04:05:42
饱满才是真绝色!这位冠军把东方美诠释到了极致

饱满才是真绝色!这位冠军把东方美诠释到了极致

白宸侃片
2026-02-17 15:57:17
王菲接班李谷一!今年春晚的“洗衣凝珠”耳环火了,网友求同款,和去年的“虾片”是同一个品牌

王菲接班李谷一!今年春晚的“洗衣凝珠”耳环火了,网友求同款,和去年的“虾片”是同一个品牌

极目新闻
2026-02-16 23:21:22
和老板见客户,却发现是我姐,结束后我直接跟着回家,老板急了

和老板见客户,却发现是我姐,结束后我直接跟着回家,老板急了

徐侠客有话说
2025-10-22 09:33:44
我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

神牛
2026-02-16 23:55:46
段永平出手!加仓巨头超1110%

段永平出手!加仓巨头超1110%

中国基金报
2026-02-18 22:56:04
谁拦得住?多家美国媒体呼吁中国如果不想灭亡,就不要开战!

谁拦得住?多家美国媒体呼吁中国如果不想灭亡,就不要开战!

我心纵横天地间
2026-02-14 22:12:28
真正通透的人,极简过年

真正通透的人,极简过年

十点读书
2026-02-18 18:36:33
0.09秒绝杀!中国队创冬奥会历史,首次登上领奖台,队员哭成泪人

0.09秒绝杀!中国队创冬奥会历史,首次登上领奖台,队员哭成泪人

侃球熊弟
2026-02-18 07:14:42
去儿子家看年货堆成山,我刚伸手,儿媳一句“别动”让我当场翻脸

去儿子家看年货堆成山,我刚伸手,儿媳一句“别动”让我当场翻脸

枫红染山径
2026-02-19 01:03:05
保时捷纯电718前途未卜,奥迪CEO高德诺重申“下一代TT”仍在开发

保时捷纯电718前途未卜,奥迪CEO高德诺重申“下一代TT”仍在开发

IT之家
2026-02-18 15:33:07
娶自己发小是什么感觉?网友:主打一个不偏不向

娶自己发小是什么感觉?网友:主打一个不偏不向

夜深爱杂谈
2026-02-18 20:52:26
弯道超车!印尼10亿拿下意大利退役航母,变东南亚海上无人机航母

弯道超车!印尼10亿拿下意大利退役航母,变东南亚海上无人机航母

军迷战情室
2026-02-18 23:14:04
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
勇士后场大将:波尔津吉斯的天赋优势太大了,他是我们的文班亚马

勇士后场大将:波尔津吉斯的天赋优势太大了,他是我们的文班亚马

稻谷与小麦
2026-02-19 01:01:23
安徽36岁女子偶遇前夫送外卖笑得心花怒放,前夫哥:自由

安徽36岁女子偶遇前夫送外卖笑得心花怒放,前夫哥:自由

观察鉴娱
2026-02-16 11:53:13
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

39健康网
2025-12-28 20:31:10
教育部亮红牌!这些专业的学生“毕业即失业”,985也在连夜撤销

教育部亮红牌!这些专业的学生“毕业即失业”,985也在连夜撤销

小熊侃史
2026-02-18 20:11:34
今年春晚仿佛看了4小时的机器人带货广告,“科技大厂砸钱赞助不如沈腾忘词上热搜快?”

今年春晚仿佛看了4小时的机器人带货广告,“科技大厂砸钱赞助不如沈腾忘词上热搜快?”

Vista氢商业
2026-02-17 19:40:55
苏翊鸣夺冠后,日本网友第一句话让韩国媒体很尴尬

苏翊鸣夺冠后,日本网友第一句话让韩国媒体很尴尬

科学发掘
2026-02-19 01:39:28
2026-02-19 04:44:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
425文章数 7653关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

以色列提升全国警戒级别 加紧军事准备

头条要闻

以色列提升全国警戒级别 加紧军事准备

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

游戏
旅游
家居
亲子
房产

PS王牌引擎太强大!成为《死亡搁浅2》唯一选择

旅游要闻

总台记者观察丨国际航线逐步恢复 委内瑞拉旅游业期待复苏

家居要闻

中古雅韵 乐韵伴日常

亲子要闻

一群小可爱,一群好家长,用最甜的声音,唱最暖的歌声,有缘相聚

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版