苹果掀桌，炮轰大模型"不会思考"，是真急了还是真懂了？|人工智能|推理|算法

苹果掀桌，炮轰大模型"不会思考"，是真急了还是真懂了？

2025-06-12 15:31:14　来源: 网易科技报道

北京举报

分享至

核心提示

01 苹果公司发布题为《思考的幻觉》的研究报告，通过系统性实验证明，当前顶尖的大型推理模型（LRM）本质上是精密的模式匹配机器，缺乏真正的认知与推理能力，在面对新颖或复杂的逻辑任务时表现不佳甚至会“瘫痪”。
02 该研究为“AI雄辩不等于智慧”提供了科学佐证，揭示了仅靠扩大模型规模和算力可能无法实现通用人工智能（AGI）。这一发现有助于用户理解AI能力边界，并促使业界重新审视当前大语言模型的技术路径与真实能力。
03 此研究发布于全球AI竞赛白热化、行业对AGI实现路径争论不休的背景下。它为“审慎派”提供了强力论据，挑战了当前主流技术路径。然而，亦有观点质疑苹果的动机，认为在竞争中相对落后的苹果此举有“酸葡萄”心理，使这场技术路线之争更添博弈色彩。

6月12日消息，人工智能光鲜亮丽的外表令世人目眩神迷，大语言模型生成的对答文采斐然，看似与人类思维无异。然而在光鲜的外表之下，苹果公司的最新研究清晰揭示出这样一个令人不安的现实：雄辩不等于智慧，模仿也绝非理解。

苹果公司这项新研究题为《思考的幻觉》（The Illusion of Thinking），在人工智能学界掀起轩然大波。研究表明，即便是最顶尖的推理模型本质上也缺乏真正的认知能力。这一发现，印证了Facebook母公司Meta首席AI科学家杨立昆（Yann LeCun）等知名学者多年来所坚持的观点：当前人工智能系统只是精密的“模式匹配机器”，而非能够思考的实体。

人工智能的巨大幻象

苹果研究团队的研究过程具备系统性，结果则具备颠覆性。他们创建了可控的解谜环境，在保持逻辑一致性的前提下，能精确调整任务复杂度，从而揭示出大型推理模型（LRM）在三种不同难度下的表现。

研究发现，标准模型在低复杂度任务中的表现竟优于那些本应更强大的推理模型。而在中等复杂度任务中，额外的“思考”过程带来的效果增量微乎其微。在面对高复杂度任务时，两种模型都彻底“瘫痪”。

更引人注目的是研究人员观察到的反直觉“规模效应”。按理说真正的智能在面对更复杂的问题时，能力应该会随之提升，但这些模型反而呈现出一种怪异模式：即便算力充足，其推理“努力程度”在达到某个临界点后仍会急剧下降。这表明模型根本没有真正进行推理；它们只是在沿用已习得的模式，一旦遇到新颖挑战便不知从何下手。

这项研究暴露出当前模型在精确计算方面的根本局限：它们无法运用明确算法，并且在面对类似谜题时推理逻辑不一致。当那层华丽的语言外衣被剥去，剩下的不过是精致却空洞的思维模仿。

专家看法

苹果的这一研究结果让专家们开始质疑当前人工智能能力的深度以及该领域未来的发展路径。IBM技术内容经理阿什·米尼亚斯（Ash Minhas）表示：“这篇论文从根本上证明了大型语言模型无法进行推理。它们只是在进行模式匹配。”他补充说，这项研究的结果凸显出“弱人工智能”与“通用人工智能”之间的区别，明确了当前大语言模型是弱人工智能。

OpenAI前董事会成员、乔治城大学安全与新兴技术中心战略总监海伦·托纳（Helen Toner）最近在美国参议院司法小组委员会作证时就表示：“据我所知，公众和圈内人士对人工智能的最大落差主要来自少数几家致力于开发’通用人工智能’的公司内部。”她说，像OpenAI、谷歌和Anthropic等顶尖人工智能公司正将构建通用人工智能视为“完全严肃的目标”。

有不少专家认为，通用人工智能远未成为现实。正如米尼亚斯所言，“这篇论文强调我们仍处于弱人工智能阶段，离通用人工智能还很远。”

“仅靠Transformer架构不足以实现推理，”米尼亚斯总结道，“要获得真正的推理能力，模型架构必须迎来新的突破。”

美国学者加里·马库斯（Gary Marcus）一直是人工智能模型能力的主要审慎派代表，他形容苹果的研究“相当具有颠覆性”。

马库斯在个人专栏中补充道，这些发现对当前竞相开发通用人工智能提出了疑问。在谈及支撑着ChatGPT等工具的大语言模型时，马库斯写道：“任何人如果认为大语言模型是通往那种能够从根本上改善社会的通用人工智能的直接路径，那都是在自欺欺人。”

英国萨里大学以人为本人工智能研究所的安德鲁·罗戈伊斯基（Andrew Rogoyski）表示，苹果论文标志着整个行业在通用人工智能领域“仍在摸索前行”，并且当前方法可能已经走入一条“死胡同”。

他说：“研究发现大型推理模型在复杂问题上会‘失去方向’，而在中低复杂度问题上表现良好，这意味着我们当前所采用的方法可能陷入了一个潜在的僵局。”

这些发现也与杨立昆等顶尖专家多年来发出的警告不谋而合。杨立昆一直坚称，五年内现有的语言模型基本上都会被淘汰，这并非因为有了更好的版本，而是因为这条实现路径存在根本缺陷。

但也有人质疑苹果的研究结果和动机。科技类咨询资深撰稿人克里斯·史密斯（Chris Smith）就认为苹果明显有“吃不到葡萄说葡萄酸”的意味。史密斯说，毕竟“苹果智能”远落后于ChatGPT、Gemini以及其他主流人工智能模型，推理模型方面更是毫无建树。Siri甚至连现在是几月份都说不清楚。

史密斯表示，这项研究发布的时间点也令人质疑。当时苹果即将举办2025年全球开发者大会，而人工智能并非会上主要焦点。苹果在已经发布商业推理模型的OpenAI、谷歌以及其他人工智能公司面前，仍然处于落后地位。而在大会前夕看到苹果贬低推理模型，确实感觉有些奇怪。

史密斯还认为，这项研究的发现很重要，相信其他人会尝试验证或挑战这些发现。甚至有些人可能会利用这些见解来改进自己的推理模型。他说，自己作为一名ChatGPT用户，即使推理模型无法真正思考，也不会放弃使用。譬如ChatGPT o3虽然会犯错，也会出现幻觉，但它的“推理”能力仍然感觉比基础大语言模型更强。

基准测试亟待改进

苹果论文也强调了人工智能行业需要更可靠的基准测试。米尼亚斯认为，当前的基准测试问题存在缺陷，因为模型可以通过模式匹配而非真正的推理来解决它们。他说：“如果基准测试是基于真正的推理，或者推理问题更复杂，那么所有模型的表现都会很糟糕。”

米尼亚斯说，苹果研究人员为此构建了一个合成数据集，将符号打乱排列后得到用于训练和测试模型的专项数据集。

“他们已经证明，一旦在输入序列中对符号本身或额外语境进行调整，模型性能就会明显下降，”他解释道。

苹果研究方法包括在训练集中引入各种“干扰信息”和附加条款，用以观察模型性能如何变化。然而，IBM数据科学家杰斯·博佐格（Jess Bozorg）指出这种研究也有局限性：“他们没有具体说明在添加内容时考虑了多少种干扰信息，也没有具体说明他们使用了哪些干扰信息。”

人性的相似之处：更偏爱自信的“雄辩者”

或许最令人不安的是，苹果研究指出的人工智能局限性与人类根深蒂固的认知偏见何其相似。正如容易被人工智能的雄辩所蒙蔽一样，我们也一贯高估一个人的自信和外向性格，常常误将伶牙俐齿等同于思维深刻。

“过度自信偏见”是人类判断中最常见的缺陷之一，个人对自身能力的主观自信远远超过客观准确性。这种偏见在社交和职场环境中尤为明显，那些自信外向的人往往能获得不成比例的关注和信任。

研究反复表明，人类倾向于将自信等同于能力、音量等同于价值、能言善辩等同于大智大慧。人工智能雄辩之下的空洞，与偏爱自信沟通的人性偏见之间的相似性深刻揭示出“智能”的本质。这两种现象都表明，我们是多么容易将“理解”的表象与实质混为一谈；也表明精湛的沟通技巧如何能掩盖推理与理解上的根本缺陷。

苹果公司的研究发现与关于人类偏见的心理学研究在此交汇，为我们如何驾驭这个日益复杂的世界提供了宝贵启示。无论是评估人工智能系统还是人类同行，我们都必须学会区分“表现”与“能力”，“雄辩”与“理解”。

这需要一种理智上的谦逊，认识到真正的大智慧常常伴随着恰如其分的不确定性；认识到最响亮最自信的未必是最可信的；认识到细致观察和检验完全可以将真正理解与精巧模仿区分开来。（辰辰）