53个AI模型的洗车悖论：为什么智能越高，常识反而越稀缺|推理|人工智能

53个AI模型的洗车悖论：为什么智能越高，常识反而越稀缺

分享至

该图片可能由AI生成

一个简单到不能再简单的问题：洗车店就在50米外，我该走路去还是开车去？正确答案显而易见——必须开车，因为车本身得到洗车店才能洗。但测试53个主流AI模型后，结果让人瞠目结舌：只有11个答对了。

最荒诞的是Perplexity的sonar系列。它确实选择了“开车”，但理由令人啼笑皆非：走路会消耗卡路里，而卡路里需要食物供应链的能源，所以走路比开50米的车更污染环境。它引用了EPA的研究，煞有介事地计算碳排放，完全忽略了车必须出现在洗车店这个基本事实。这就像用量子力学解释为什么要系鞋带——答案碰巧对了，但推理过程完全是另一个平行宇宙的产物。

开源模型几乎全军覆没。Llama全系列、Mistral全家族、DeepSeek v3系列，统统建议走路。只有GLM-5和Kimi K2.5（闭源版本）答对了。闭源大模型的表现稍好，但也谈不上优秀：OpenAI的12个模型里只有GPT-5答对；Anthropic的9个模型里只有Opus 4.6过关；Google倒是让Gemini 3系列全部答对，但2.x系列全败。

这个测试揭示了一个深刻的矛盾：模型越大、参数越多，在复杂任务上表现越出色，但面对这种需要基本空间推理的场景时，反而容易被“优化思维”带偏。它们的训练数据里充斥着“短距离应该走路更环保”的信息，于是本能地匹配到这个模式，完全忘记了任务目标——车必须在场。这不是推理能力的问题，而是具身认知的缺失。AI没有身体，不理解“物体需要被运输到特定位置”这个物理世界的基本规则。

有人质疑这个测试不够严谨，建议每个模型跑50次取平均值。但这恰恰忽略了要点：普通用户只会问一次，如果第一次就答错，谁还会给它第二次机会？更何况，那些答对的模型，无论问多少次都能保持正确；答错的那些，即使跑100次也不过是在随机碰运气。

真正耐人寻味的是某些模型的“创造性失败”。MiniMax M2.5建议“两者都做”：先走过去看看，再走回来开车过去洗。GLM-4.7 Flash甚至建议推车或者挂空挡滑过去。这些答案虽然荒谬，但至少意识到了车需要到达目的地，比那些直接建议走路的模型要强一些。

这个测试的价值不在于给模型排名，而在于暴露了一个根本性问题：当前的LLM擅长模式匹配和文本生成，但缺乏对物理世界的基本理解。它们能写出精妙的代码，能总结复杂的论文，却在“车要去洗车店就得开车过去”这种幼儿园级别的常识上翻车。所谓的“推理能力”，很多时候不过是在海量训练数据中找到相似的模式，一旦遇到需要真正理解物理因果关系的场景，就原形毕露。

或许这就是为什么业内越来越多人呼吁开发“世界模型”（world model）。AI需要的不仅仅是更多参数和更大算力，还需要对物理空间、对象关系、因果逻辑的基本理解。在那之前，我们拥有的不过是一个会说话的模式匹配器——它能告诉你走路更环保，却想不明白没车在场怎么洗车。

深度思考：

这个洗车悖论证明了，我们目前拥有的所谓“强人工智能”，本质上仍然是一个没有常识的各种文体拼接大师。

它能写出莎士比亚风格的十四行诗，能解决奥数级别的代数题，却搞不定“要把猪赶到屠宰场，人得跟着猪走”这种幼儿园级别的物理逻辑。

真正的智能，不仅是知识的百科全书，更必须是物理世界的模拟器。在AI具备真正的“具身认知”，理解“物体恒存性”和“空间移动的物理代价”之前，它们将永远是那个坐在云端、不懂人间疾苦、只会掉书袋的“书呆子”。那个建议你“为了环保走路去洗车”的AI，就像是一个只会纸上谈兵的指挥官，他在地图上画了一条完美的直线，却忘了战场上还有一条河。

reddit.com/r/LocalLLaMA/comments/1r7c7zg/car_wash_test_on_53_leading_models_i_want_to_wash

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.