Anthropic团队：AI推理评测存在哪些问题？|算法|数学|科学|人工智能

分享至

想象一下，如果有人告诉你某个学生在数学考试中得了零分，你可能会认为这个学生数学很差。但如果你后来发现，这个学生其实会做题，只是因为答题纸不够大，写不下完整的解答过程，你还会认为他数学不好吗？这正是人工智能领域最近发生的一个有趣故事。

这项由Anthropic公司的C. Opus和Open Philanthropy的A. Lawsen共同完成的研究发表于2025年6月10日，以"The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025)"为题发布在arXiv预印本平台上。有兴趣深入了解的读者可以通过arXiv:2506.09250v1访问完整论文。这项研究就像一个"打假"行动，揭露了之前一项声称发现AI推理能力存在根本缺陷的研究实际上可能误导了整个学术界。

故事要从Shojaee等人在2025年初发表的一项研究说起。这些研究者声称他们发现了一个惊人的现象：那些被誉为具有强大推理能力的大型推理模型（想象成非常聪明的AI助手）在解决复杂的逻辑谜题时会出现"准确率崩溃"的现象。简单来说，就是这些AI在面对稍微复杂一点的问题时，突然就变得像完全不会思考一样，准确率直接掉到零。这个发现如果属实，将对AI推理研究产生重大影响，因为它意味着这些看似聪明的AI系统存在根本性的局限。

然而，Anthropic和Open Philanthropy的研究团队通过细致的分析发现，这个所谓的"推理能力崩溃"可能是一个巨大的误解。他们的发现就像揭穿了一个精心包装的魔术表演，让人们看到了真相背后的机关。

一、AI其实知道自己的"答题纸"不够大

研究团队首先发现的最关键问题，就像我们开头提到的答题纸不够大的比喻一样真实。当他们仔细查看AI模型的实际输出时，发现了一个被原研究忽视的重要细节：这些AI模型其实完全知道自己面临的限制。

想象你正在解决一个需要写出上万个步骤的数学题，但你的答题纸只能写几千个字。一个聪明的学生会怎么做？他可能会写到一半时说："接下来的步骤我都知道怎么做，但为了不让答案太长，我就停在这里了。" 这正是AI模型在做的事情。

Twitter上一位名叫@scaling01的用户在重现汉诺塔问题（一种经典的逻辑谜题，就像把不同大小的盘子按顺序移动的游戏）时，捕捉到了AI模型的真实反应。模型明确表示："这个模式会继续下去，但为了避免回答太长，我就停在这里了。" 这说明AI完全理解解决方案的模式，只是选择不完整列举所有步骤，就像一个懂礼貌的学生知道什么时候该停笔一样。

这个发现就像撕掉了魔术师手套，让人们看到了真相。原来所谓的"推理崩溃"，很可能只是AI遇到了物理限制——就像一个再聪明的人也不可能在一张便签纸上写出一本书的内容一样。

研究团队进一步分析了这种误判可能带来的统计学谬误。假设一个AI模型每写一个字符的准确率是99.9%，看起来已经非常高了。但如果要求它写出一万个字符的完美答案，那么全部正确的概率就变成了0.999的一万次方，结果几乎为零。这就像要求一个射箭高手连续射中一万次靶心一样，即使每次命中率很高，连续成功的概率也会变得微乎其微。

更有趣的是，已经有研究者在学术文献中提出过类似的"统计必然性"论证，声称这证明了大型语言模型存在根本性的扩展限制。但这种论证的前提是假设模型无法认识和适应自己的局限性，而现在的证据表明这个假设是错误的。AI模型就像聪明的学生一样，它们知道自己的能力边界，并会相应地调整策略。

二、不可能的谜题让AI背了黑锅

如果说第一个发现让人惊讶，那么第二个发现就让人哭笑不得了。研究团队发现，在原研究的河流过桥问题（一种经典的逻辑谜题，想象不同的人要过河，但船的容量有限，而且有各种约束条件）中，存在一个更加严重的问题：有些题目根本就无解。

想象一下这样的情景：老师给学生出了一道数学题，要求学生求出"最大的质数是多少"。当学生回答"这个问题没有答案，因为质数有无穷多个"时，老师却因为学生没有给出一个具体数字而给了零分。这听起来很荒谬，但这正是原研究中发生的事情。

根据数学理论，当河流过桥问题中的人数超过5个，而船的容量只有3个人时，这个问题就变得无解了。这是一个早已被数学家证明的结论，就像我们知道圆的面积公式一样确定。但原研究却要求AI模型解决6个或更多人的过桥问题，然后当AI无法给出解答时，就认为这是AI推理能力的失败。

这就好比让一个计算机程序去解决"1+1=3"这样的错误等式，然后因为程序拒绝给出答案而认为程序有问题。实际上，能够识别出问题无解，本身就体现了良好的逻辑推理能力。一个真正优秀的SAT求解器（专门解决逻辑满足性问题的程序）在遇到无解的问题时，会明确返回"无解"，而不是随便给出一个错误答案。

这种评测方式的问题在于，它使用了完全自动化的评分系统，无法区分"推理失败"和"正确识别问题无解"之间的差别。就像一个只会按标准答案打分的机器，无法理解学生可能比出题者更聪明的情况。

三、物理限制不等于智力缺陷

为了更深入地理解这个问题，研究团队详细分析了为什么会出现所谓的"准确率崩溃"。他们发现，这个现象完全可以用物理约束来解释，就像解释为什么人不能举起比自己重十倍的东西一样简单。

汉诺塔问题是一个经典的递归问题，就像俄罗斯套娃一样，大问题包含小问题，小问题又包含更小的问题。解决N个盘子的汉诺塔问题需要2的N次方减1步移动。当N等于15时，需要32767步；当N等于20时，需要超过一百万步。如果按照原研究的要求，需要详细列出每一步的完整移动序列，那么所需的文字数量会呈指数级增长。

研究团队通过数学计算发现，如果每步移动大约需要5个文字标记来描述，那么解决不同规模的汉诺塔问题所需的总标记数会快速超过AI模型的输出限制。对于Claude-3.7-Sonnet和DeepSeek-R1这两个模型，它们的输出限制是64000个标记，理论上最多能完整解决7到8层的汉诺塔问题。而o3-mini模型的输出限制是100000个标记，最多能解决8层的问题。

有趣的是，原研究报告的"崩溃点"正好对应这些物理限制。这就像发现一个人在负重50公斤时走得很好，但超过60公斤就走不动了，然后有人声称这证明了人类运动能力存在神秘的缺陷，而实际上这只是正常的物理极限。

更令人深思的是，研究团队指出了复杂度定义的问题。原研究使用"组合深度"（即最少移动步数）作为问题复杂度的衡量标准，但这就像用菜谱的长度来衡量菜品的制作难度一样不合理。一道需要炖煮八小时的简单汤品，其菜谱可能比一道需要精确掌握火候的快手菜更长，但并不意味着前者更难制作。

实际上，汉诺塔问题虽然需要指数级的移动步数，但每一步的决策过程都是线性的、确定的，不需要复杂的搜索或推理。相比之下，河流过桥问题虽然移动步数较少，但需要复杂的约束满足和搜索过程，在计算复杂度理论中属于NP困难问题。这就解释了为什么AI模型能够"执行"数百步的汉诺塔移动，却可能在5步的河流过桥问题上遇到困难。

四、换个角度看问题，真相大白

最有说服力的证据来自研究团队设计的一个巧妙实验。他们没有要求AI模型列出汉诺塔问题的完整移动序列，而是要求模型编写一个计算机程序来解决这个问题。这就像不要求学生在考试中手工计算复杂的数学运算，而是让他们编写计算公式一样。

结果令人印象深刻：当面对15层的汉诺塔问题时，原本被认为完全无法解决的AI模型（包括Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3和Google Gemini 2.5）都表现出了很高的准确率，而且只用了不到5000个标记就完成了任务。这些生成的程序正确地实现了递归算法，展现了模型对问题本质的深刻理解。

这个发现就像给了那些怀疑AI推理能力的人一记响亮的耳光。原来AI并非不会推理，而是之前的评测方式就像要求钢琴家用拳击手套弹奏肖邦一样不合理。当给予合适的表达方式时，AI展现出的推理能力令人刮目相看。

研究团队承认，由于预算限制，他们无法进行大规模的统计验证，但初步结果已经足够说明问题的关键所在。这就像在黑暗中点亮了一盏明灯，虽然还不能照亮整个房间，但已经足以让人看清前进的方向。

五、重新思考AI能力评估的标准

这项研究揭示了一个更深层的问题：我们应该如何正确评估AI的推理能力？就像评判一个厨师不应该只看他能否在限定时间内做出一百道菜，而应该看他对烹饪原理的理解和创新能力一样，评估AI推理能力也需要更加科学和全面的方法。

研究团队提出了几个重要的观点。首先，评估系统必须能够区分推理能力和输出约束。这就像一个好的老师能够区分学生是真的不会做题，还是因为时间不够而没有完成。自动化评分系统虽然效率高，但往往缺乏这种细致的判断能力。

其次，在评估AI能力之前，必须验证问题本身的可解性。这听起来像是常识，但在实际研究中却经常被忽视。就像在数学竞赛中，出题者必须确保每道题都有解一样，AI评测也应该遵循同样的原则。

第三，复杂度的衡量标准应该反映计算难度，而不仅仅是解决方案的长度。这就像评估一个工程项目的难度不应该只看施工图的页数，而应该考虑设计的创新性、技术挑战和实施复杂度。

最后，应该考虑多种解决方案的表示形式，以区分算法理解和具体执行。这就像评估一个建筑师不应该只看他能否亲手砌墙，而应该看他的设计能力和对建筑原理的掌握。

研究团队强调，未来的AI能力评估应该遵循四个基本原则。评估设计应该能够区分推理能力和输出限制，就像好的考试能够真正测试学生的理解水平而不是记忆能力一样。在评估模型表现之前应该验证问题的可解性，这是任何科学评估的基本要求。使用反映计算难度而非仅仅是解决方案长度的复杂度指标，能够更准确地衡量真正的推理挑战。最后，考虑多种解决方案表示形式有助于将算法理解与具体执行分离开来。

六、这场争论的更深层意义

这项研究的意义远远超出了对单一学术论文的批评。它揭示了AI研究领域中一个普遍存在的问题：我们经常被表面现象所迷惑，而忽视了问题的本质。

就像古代人看到太阳东升西落就认为太阳围绕地球转动一样，我们有时也会因为观察方法的局限而得出错误的结论。这项研究提醒我们，在得出关于AI能力的重大结论之前，必须仔细检查我们的观察方法和评估标准。

更重要的是，这项研究突出了跨学科合作的重要性。来自不同机构的研究者通过合作，能够以不同的视角审视同一个问题，从而发现单一研究团队可能忽视的问题。这就像多个侦探共同破案，每个人的独特观察角度都可能提供关键线索。

研究团队在论文中风趣地写道："问题不在于大型推理模型是否能够推理，而在于我们的评估是否能够区分推理和打字。" 这句话虽然听起来轻松，但触及了问题的核心：我们需要更加智慧的方法来评估人工智能的真正能力。

这项研究也反映了科学研究的自我纠错机制。当一项研究发表后，其他研究者会仔细审查其方法和结论，这种同行评议过程虽然有时会产生争议，但正是这种机制保证了科学知识的可靠性和进步。

说到底，这场学术争论实际上展现了科学研究最美好的一面：对真理的不懈追求。无论是最初声称发现AI推理缺陷的研究团队，还是后来指出评测问题的研究者，他们都在为更好地理解人工智能的能力而努力。虽然他们的结论截然不同，但这种学术辩论正是推动领域进步的动力。

归根结底，这项研究告诉我们一个重要道理：在人工智能快速发展的时代，我们既不应该盲目乐观，也不应该过分悲观。相反，我们需要以更加科学、客观的态度来评估AI的真正能力和局限性。只有这样，我们才能在AI发展的道路上稳步前进，既充分发挥其潜力，又避免不必要的恐慌或误解。

对于普通人来说，这项研究提醒我们要以批判性思维看待关于AI能力的各种声明。就像我们不会仅凭一个人在特定条件下的表现就判断他的整体能力一样，我们也不应该仅凭单一评测就对AI的推理能力下定论。真正的智慧在于理解评测条件、方法的局限性，以及结果的适用范围。

这场学术争论最终可能会推动AI评估方法的改进，就像历史上每一次科学争论都会推动研究方法的进步一样。对于那些有兴趣深入了解这个话题的读者，建议查阅原始论文以获得更详细的技术细节和数据分析。这种第一手的学术体验能够帮助我们更好地理解科学研究的复杂性和严谨性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.