塔林理工大学:AI大脑在不"打草稿"的情况下，能推理到什么程度？|维度|逻辑推理

分享至

这项由爱沙尼亚塔林理工大学应用人工智能研究组完成的研究，于2026年5月以预印本形式发布在arXiv平台，编号为arXiv:2605.04330v1，研究方向归属于计算机科学与人工智能领域。有兴趣深入了解的读者可以通过该编号在arXiv上查阅完整论文。

**当AI做逻辑题，能不能不写过程直接给答案？**

每个上过数学课的人都有这样的经历：老师总是说"必须写解题过程，不能只写答案"。这背后有一个朴素的道理——复杂的问题需要一步步推进，中间的每一步都是不可跳过的思维过程。

现在，人工智能领域也面临着几乎一样的问题。当我们要求一个AI系统回答逻辑推理题时，它有两种选择：一种是把推理过程写出来，一步一步推导，像数学老师要求的那样——这在AI领域叫做"思维链（Chain of Thought, CoT）"；另一种是直接给出最终答案，不展示任何中间步骤——研究者把这叫做"隐式推理"或"直接预测"。

直觉上，展示过程的那种方式准确率应该更高。但如果一个AI系统能够不写过程就给出正确答案，那它的内部究竟发生了什么？它的能力边界在哪里？当模型层数不断加深时，这种"心算"能力会如何提升？带着这些问题，塔林理工大学的研究团队进行了一系列系统性实验，试图摸清Transformer模型在逻辑推理上的"心算极限"。

**一、逻辑推理的沙盘实验**

要搞清楚AI的推理能力边界，研究者们首先需要一个可控的实验环境——一个可以精确调节难度、观察所有变量的"沙盘"。他们选择的研究对象是一种叫做"霍恩子句（Horn clauses）"的逻辑形式。听起来很专业，但其实原理非常直觉化。

霍恩子句的推理本质上就是一个"如果-那么"的连锁游戏。比如："如果今天下雨，那么地面会湿；如果地面湿了，那么鞋子会脏；如果鞋子脏了，那么妈妈会生气。"已知"今天下雨"，那么能否推导出"妈妈会生气"？这个推导需要经过三个步骤，研究者把它的"推理深度"定义为3。

研究团队使用了三种不同类型的逻辑题库来测试AI。第一种叫做"规则优先（RP）"，生成的题目结构复杂交错，就像一团乱麻，推理路径盘根错节；第二种叫做"标签优先（LP）"，生成的题目有清晰的层级骨架，像一棵整齐的树，但夹杂着一些迷惑性的干扰规则；第三种叫做"LP*"，是LP的变体，人为增加了更多循环依赖，让推理路径更加复杂。

这三种题库的设计目的在于验证模型是否真正学会了推理，还是只是记住了特定题目的"形状"。如果一个模型在一种类型的题目上表现很好，却无法迁移到另一种类型，就说明它很可能走了捷径，而不是真正理解了逻辑推理本身。研究团队在规则优先类型的数据上训练模型，然后拿到标签优先类型的数据上测试，以此检验真正的泛化能力。

**二、AI也会"走捷径"，而且非常擅长**

研究的一个核心发现令人深思：AI非常、非常擅长找捷径。

考虑一个高中考试的场景：如果一套试卷上，所有难题（需要复杂推理的题）碰巧都是选项B，而简单题（直接看条件就能判断的题）碰巧都是选项A，那么一个聪明的学生完全可以不做任何推理，只靠"难题选B，简单题选A"这个规律来蒙题，并且得到相当不错的成绩。但这显然不是在考察逻辑推理能力。

研究团队发现，AI模型在训练过程中会自动发现类似的"潜规则"。在原始数据集中，存在大量题目表面特征与正确答案之间的虚假关联。举个具体的例子：在随机生成的逻辑题中，"规则数量多的题目"往往更容易是"可推导"（即答案为真）的题目，因为规则越多，推导路径就越丰富。于是，AI可能会学到一个捷径——"规则多，答案就是真的"，而完全绕过实际的逻辑推导过程。研究者对这些特征与答案之间的皮尔逊相关系数进行了测量，发现原始数据集中"规则数量"与答案的相关系数高达0.277，"查询词出现次数"的相关系数更是达到了0.431，这些都是非常强的捷径信号。

更麻烦的是，研究者还发现了一个被之前研究忽视的严重问题：在评估"不可推导"（答案为假）的题目时，之前的研究通常用"反向追踪深度"来衡量题目难度，但这导致这类题目的"正向推导深度"严重偏低——大量假题看起来逻辑链条很短，而真题的逻辑链条较长。这样一来，AI只需要看看逻辑链有多长，就能猜出答案是真是假，根本不需要真正推理。这就像判断一道数学题对不对，不去验算，只看题目占了几行纸——短题目多是错的，长题目多是对的。

**三、三把"手术刀"：如何剪掉捷径**

为了让模型真正学会推理而不是走捷径，研究团队拿出了三个相互配合的解决方案，就像外科医生用三把手术刀，从不同角度切除"捷径"这颗毒瘤。

第一把手术刀叫做"r2启发式"。这个方法的核心思路是：为每一道训练题，创造一道与它表面特征几乎完全相同、但答案完全相反的配对题。就像一对双胞胎，外表一模一样，但一个性格好，一个性格坏。当这对双胞胎都出现在训练数据中时，任何试图靠"长相"（表面特征）来判断"性格"（答案）的模型都会陷入困境——因为外表相同的两题答案不同，外表无法提供有效信息。从数学上来说，这迫使模型要么依赖深层的结构特征，要么增大权重（但增大权重会被正则化惩罚），两难之下，模型被迫去真正理解逻辑结构。经过r2处理后，"规则数量"与答案的相关系数从0.277骤降至接近0的0.019，"查询词出现次数"的相关系数也从0.431降至0.078，捷径信号被大幅压制。

对于层级清晰的LP类题目，这个策略的具体做法是：找到那条让答案为真的关键规则，把它删掉，同时加入一条看似有用实则无效的干扰规则。对于结构复杂的RP类题目，则采用迭代式修改策略——反复增减规则，直到答案翻转，同时尽量保持题目表面统计特征不变。

第二把手术刀是"双向前缀掩码"。这解决的是一个更微妙的问题：逻辑规则的顺序。在现实中，"如果A且B，那么C"和"如果B且A，那么C"是完全等价的——前提条件的顺序不影响结论。但传统的语言模型在处理文本时是从左到右逐字读取的，就像一个只会从头到尾读书而不能回翻的读者，所以前提条件的顺序会影响它的表现。双向前缀掩码让模型在读取题目（问题描述部分）时，能够自由地在任意位置之间建立注意力关联，不再受到从左到右的顺序限制，就像一个能够自由翻阅书籍任意页面的读者。研究发现，这一改动在直接预测模式下贡献了平均8.4个百分点的提升，在思维链模式下也贡献了6.0个百分点。

第三把手术刀是"纠正性训练目标"。这是整个方案中最核心的一把。基本思路是：让模型同时学习"直接给答案"和"给出推理过程"这两种任务，并且让两种任务在同一段文本序列中共存，互相强化。具体的做法是把直接预测和思维链推理拼接成一个单一的输出序列，并设计专门的注意力掩码，让两个任务都能看到题目描述，但互相之间不能"偷看"对方的答案。

为什么不干脆用最简单的混合训练（把直接预测任务和思维链任务分成两个独立数据集，交替训练）呢？研究团队尝试了这种方法，结果非常糟糕——两种任务的准确率同时崩溃，而且崩溃到了几乎完全相同的水平。研究者通过分析模型内部发现了原因：用于区分"直接回答模式"和"逐步推理模式"的任务标记向量（task token），在混合训练中其L2范数（可以理解为向量的"响亮程度"）趋近于零——模型实际上把这个信号完全忽略了，两种模式合并成了同一种模式，导致两败俱伤。而拼接成单一序列的纠正性格式则有效避免了这个问题。

**四、模型"层数"才是真正的关键**

在解决了捷径问题之后，研究团队开始探索更根本的问题：对于"心算"（直接推理，不写步骤）来说，模型的哪些参数才是真正重要的？

研究者考察了三个维度：模型的"层数"（即深度，决定了模型可以进行多少个串行计算步骤）、模型的"维度"（即宽度，决定了每一层能并行处理多少信息）、以及规则包含的前提条件数量（决定了推理的复杂程度）。

结论非常清晰：层数才是关键，维度的作用相对次要，并且依赖于具体情况。

这背后有一个深刻的计算理论原因。逻辑推理本质上是一个串行过程——第一步的结论是第二步的输入，第二步的结论是第三步的输入，就像流水线上的工序，必须一道接一道完成，无法并行。Transformer模型虽然在处理同一层内的信息时可以大规模并行，但层与层之间是串行的。因此，如果一道题需要5步推导（深度为5），但模型只有4层，那么模型从架构上就不可能正确完成这道题——就像一条只有4道工序的流水线，永远无法完成需要5道工序的产品。

研究者将这个关系形式化为"深度复杂度"：完成一道推理深度为δ的题目，至少需要Ω(δ)层（读作"关于δ的大Omega阶"，意思是层数必须至少与推理深度成正比）。

然而，研究者也发现了一种有趣的例外情况，与另一种推理策略有关——"规则综合（rule synthesis）"。在某些有清晰层级结构的题目中（比如LP类型），模型可以采取一种类似"计算捷径"的策略：把多条短规则预先综合成一条长规则，一步跨越多个推理层级，就像用指数方式计算幂次（2的10次方不需要把2乘以自己10次，而可以通过重复平方只用几步完成）。理论上，这种策略只需要对数级别的层数（Ω(log δ)层）就能处理深度为δ的推理链。但这种规则综合方法对注意力头的维度有很高要求，因为它需要同时处理更多的前提条件，一旦规则的前提条件数量增加，需要"同时在工作记忆中保持"的信息量就会爆炸式增长。

**五、增加维度能解决问题吗？并不能**

回到维度的问题。研究团队设计了精细的实验来测试维度扩展的效果：固定推理深度为5，比较层数为4和层数为8的模型在不同维度（128、256、512）下的表现，同时测试不同的规则前提条件数量（1个、2个、3个）。

对于层数为8的"足够深"模型，扩大维度几乎不带来任何显著提升——模型在各种前提条件数量下都已经表现良好，多余的维度是浪费。对于层数为4的"不够深"模型，扩大维度确实能带来显著提升，尤其是在规则前提条件较多时效果更明显。这支持了理论预测：当模型必须依赖规则综合（需要更高维度的工作记忆）时，扩大维度有帮助；但如果模型层数足够，走正向链式推理就够了，维度不是瓶颈。

更重要的是，研究者指出了维度扩展的根本局限性。在最坏情况下（比如随机图结构上的复杂推理），随着前提条件数量增加，需要同时追踪的规则组合数量是指数爆炸的，因此维度需要指数级增长才能跟上。这意味着靠堆维度来解决推理问题，在理论上是不可持续的。从计算理论角度来说，霍恩子句推理是一个"P完全"（P-complete）问题，这意味着它很可能无法被高效并行化——要么走串行推理，要么用指数级的并行资源，没有两全其美的选项。

**六、当层数增加，心算逼近打草稿**

在确认了层数是关键因素之后，研究团队进行了最令人振奋的实验：系统性地增加模型深度，从8层一路扩展到16层、32层、64层、128层，观察"直接推理"和"思维链推理"之间的差距如何变化。

结果非常鲜明。对于训练范围内的推理深度（1到6步），随着模型层数的增加，直接推理的准确率稳步上升，而思维链推理的准确率相对稳定（本来就很高）。当层数达到24层时，直接推理的准确率已经在LP类型的题目上达到99.3%，完全追上了思维链。这个结果在不同题目类型和不同题目规模下都成立。

研究者把这个现象解释为"计算冗余"带来的好处。当模型层数远超推理深度时（比如一道需要6步的题目，模型有128层可用），额外的层数提供了充裕的计算空间，让模型可以"反复验证"推导结果，或者把本来需要同时处理的信息拆分成先后处理，降低了每一步的记忆压力。从某种意义上说，一个128层的模型在处理一道6步推理题时，其效果确实类似于一个8层模型在"打草稿"——只不过草稿写在了模型内部的隐藏状态中，而不是输出文本中。

然而，这里有一个重要的但书：这个结论只在训练范围内的推理深度上成立。一旦要求模型处理比训练时见过的更深的推理链（比如训练最深6步，测试12步），思维链方式仍然远远优于直接推理。128层的直接推理模型在深度12的题目上准确率只有93.2%，而思维链模型则达到98.3%。这意味着，写出推理过程的能力对于"超纲题"来说仍然不可替代——因为思维链通过生成中间步骤，有效地把一个超出模型深度的问题分解成了多个更短的子问题。

**七、用"透视眼"看模型内部的推理痕迹**

研究者不仅观察了模型的最终输出，还开发了一套分析工具来窥视模型"心算"过程中的内部状态——这相当于给AI装上了一个核磁共振仪，让我们能看到它"大脑"的活动。

这套工具叫做"Procrustes对齐探针"。其原理是这样的：Transformer模型在每一层都会对隐藏状态进行线性变换，就像不断旋转和缩放一个多维空间中的点云。研究者发现，虽然这些变换会让隐藏状态看起来面目全非，但潜在的逻辑信息（比如"哪些命题是可以被推导出来的"）其实一直都以线性可分的形式保存在其中，只是被一层层的旋转矩阵"掩盖"了。通过数学上的Procrustes分析，可以找到最优的旋转矩阵来"解除掩盖"，把各层的隐藏状态映射回同一个参照空间，然后用一个简单的线性分类器来读取其中的逻辑信息。

用这套工具分析模型时，研究者发现了一个美妙的现象：随着模型层数的增加，"命题是否可以被推导出来"这个信息在越来越深的层上变得越来越清晰可读。对于8层模型，这个信息在最后几层才变得清晰；对于128层模型，这个信息在大约第32层就已经非常清晰，之后持续保持高精度。这就好像一个能力更强的学生在解题过程中，更早地就能在草稿纸上写下正确的中间结论，而不是到最后才豁然开朗。

更有趣的是，通过比较只有1个前提条件的规则和有3个前提条件的规则，研究者观察到了两种截然不同的"收敛模式"。在只有1个前提条件时（链式结构，每步只依赖上一步），模型的内部置信度在约log?(δ)层就趋于稳定，支持了"规则综合"假说——模型像二分查找一样，用对数时间完成推理。在有3个前提条件时（每步需要同时满足多个条件），模型的内部置信度要到第δ层才趋于稳定，支持了"正向链式推理"假说——模型确实在一层一层地"传播"推导结论。两种策略都真实存在于模型中，只是在不同情况下被优先采用。

**八、递归结构的模型与开源大模型的对比**

研究团队还测试了两类特殊情况。第一类是"万能Transformer（Universal Transformer）"——这种架构不是堆叠多个不同的层，而是把同一层重复使用多次。这赋予了模型一种天然的"递归归纳偏置"，让它更容易学到"每次迭代做同一件事"的模式，这与逻辑推理的本质（反复应用规则直到无法推导新结论）非常契合。

实验结果显示，带有前馈网络（FFN）组件的万能Transformer在LP类型题目上显著优于同等规模的普通堆叠Transformer（分别是95.9%对89.1%），但不带FFN时两者相差无几。研究者认为，递归偏置与前馈网络的点式计算能力相结合，让模型更好地利用了前馈网络的综合能力。然而有趣的是，在分布内（RP类型）的题目上，万能Transformer会出现"提前收敛"的现象——内部置信度在推理深度达到之前就已经稳定，暗示模型仍然学到了某种捷径，只不过是更高级的捷径。

第二类是对比实验：研究团队用同样的逻辑推理题测试了当前最先进的约300亿参数开源大模型，包括Qwen3(30B)、Gemma3(27B)、Mistral Small(24B)和Granite4(32B)。结果清晰地展示了一个规律：在思维链模式下，Qwen3在各种类型的题目上都能保持90%以上的准确率；但在直接预测模式下，几乎所有模型在推理深度超过2时准确率就急剧下滑，在LP类型题目上甚至接近随机猜测的50%。这与专门训练的小模型（只有约220万参数，但经过了针对性设计）形成鲜明对比——经过适当训练的小模型在深度6以内的直接推理上可以接近99%。这说明问题不在于模型的知识量或参数量，而在于训练目标和架构设计是否与任务的计算需求相匹配。

研究团队还测试了强化学习方法（GRPO和FlowRL）是否能进一步提升已经训练好的模型。GRPO（一种类似DeepSeek-R1所用方法的奖励最大化策略）对模型表现几乎没有改变，既没有提升也没有明显损害——这验证了已有文献的结论：强化学习主要是巩固已有能力，而非开拓新能力。FlowRL（一种分布匹配策略）则出现了明显的性能退化，错误分析显示这是因为模型开始遗漏本应推导出的结论（missed deductions增加），推理覆盖范围缩小了，这与"支持集缩减"的理论预测相吻合。

**九、研究的局限与未来方向**

研究者对自身工作的局限性保持了诚实的态度。整个实验都在合成数据和玩具模型上进行，最大的模型也不过是一个2亿多参数的小模型，研究使用的序列长度不超过1024个词元，问题设定也严格限制在霍恩子句推理这一特定领域。从实验室到真实应用之间，还有很长的距离。

此外，尽管探针分析提供了对模型内部状态的某些洞察，但要真正理解模型为什么会产生这样的结果，仍然非常困难。就像神经科学家可以用功能性核磁共振仪看到大脑的哪个区域在某项任务中活跃，但这并不等于理解了思维的机制。研究者坦承，在分析了数百个训练检查点之后，"这些近似是如何具体涌现的，仍然难以捉摸"。

未来的研究方向包括：将理论形式化地扩展到思维链的计算极限；探索更好的优化方法来促进推理步骤的学习；向更丰富的逻辑形式（如一阶逻辑、定理证明）和自然语言推理扩展；以及研究具有无界状态或递归架构的模型（如Mamba）是否能打破深度限制。

**研究的根本价值：一张AI推理能力的"地图"**

归根结底，这项研究画出了一张关于Transformer模型逻辑推理能力的"地图"：纵轴是推理深度，横轴是模型层数，关键规律是"直接推理的可靠性随层数线性提升，而依赖写出步骤的能力才能处理超出训练深度的问题"。

这张地图有几个实用价值。它解释了为什么当前大型语言模型在"直接回答需要多步推理的问题"时经常出错——不是因为它们没有相关知识，而是因为这类问题的计算需求超过了一次前向传播所能提供的串行计算深度。它也解释了为什么思维链提示如此有效——本质上是借助外部文本空间来弥补模型内部串行计算深度的不足。

更有趣的是，它为理解隐式推理的上限提供了清晰框架：通过增加层数并配合纠正性训练，可以让"心算"在训练范围内追上"打草稿"；但一旦题目超出训练见过的难度范围，打草稿的优势便再次凸显且难以消除。这为未来AI系统的设计提供了一个关键参考——如果希望构建能够在不展示推理过程的情况下稳定完成复杂推理的系统，增加模型深度是比增加模型宽度更有效的路径，同时需要在数据和训练目标上下大功夫，系统性地消除捷径。

Q&A

Q1：Transformer模型的"直接推理"和"思维链推理"有什么本质区别？

A：直接推理是模型在内部悄悄完成所有计算，只输出最终答案，就像心算；思维链推理则是把中间推导步骤一步步写出来，就像在草稿纸上演算。根据塔林理工大学的研究，直接推理的能力上限受模型层数严格限制——推理需要几步，模型至少需要同等层数；而思维链通过把中间结论写成文字，相当于借用外部存储，可以突破层数限制，在超纲题目上仍然有效。两种方式的区别不是"有没有逻辑能力"，而是计算资源的组织方式不同。

Q2：r2启发式数据增强方法具体是怎么工作的？

A：r2方法的核心是为每道训练题创造一道"双胞胎题"，表面特征（规则数量、用词频率等）几乎完全相同，但答案相反。比如原题答案为"可推导"，配对题答案为"不可推导"，但两道题的规则条数、词汇分布等统计指标几乎一致。这样一来，任何靠表面统计规律猜答案的策略都会在这对双胞胎题上同时答对一道、答错一道，净收益为零。模型被迫真正分析逻辑结构才能区分两者。实测显示，经过r2处理后，数据集中各类表面特征与答案的相关系数从最高0.437降低到接近零。

Q3：为什么不能通过强化学习让AI模型学会更深层的推理？

A：塔林理工大学的实验测试了两种强化学习方法。GRPO（奖励最大化）基本上没有改变模型的推理能力，只是强化了现有的模式，包括那些逻辑上不严谨但碰巧答对的路径，无法帮助模型真正"突破上限"。FlowRL（分布匹配）更糟糕，会导致模型遗漏本应推导出的结论，推理覆盖范围实际上缩小了。研究者认为，这符合已有理论：强化学习主要是在已有能力的基础上做优化和选择，而不能凭空创造模型从未掌握的计算能力。要提升深层推理能力，根本上还是要在模型架构设计和监督训练上下功夫。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.