清华大学：看似"灵活"的AI语言模型，反而限制了自己的推理能力|算法|数学|新论文

分享至

这项由清华大学LeapLab、NLPLab以及阿里巴巴集团联合开展的研究发表于2026年1月22日，论文编号为arXiv:2601.15165v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

说到人工智能的语言模型，大多数人可能会觉得越灵活越好。就像一个聪明的学生，如果能够用不同的方式思考问题、从不同角度入手解决难题，应该会表现得更出色才对。但清华大学的研究团队最近发现了一个令人意外的现象：那些看似更"灵活"的AI语言模型，在处理数学推理和编程等复杂任务时，反而表现得不如那些按部就班、循规蹈矩的模型。

这个发现颠覆了我们对AI模型设计的传统认知。研究团队将目光聚焦在一类叫做"扩散大语言模型"的AI系统上。这类模型的特别之处在于，它们不像传统模型那样必须按照从左到右的固定顺序生成文字，而是可以任意选择先写哪个词、后写哪个词。就好比写作文时，你可以先写结论，再填补中间的论证过程，或者先写某个精彩的段落，再补充前后的内容。这种灵活性听起来确实很诱人，理论上应该能让AI找到更多解决问题的路径。

然而，当研究人员深入分析这些"灵活"模型的实际表现时，却发现了一个有趣的矛盾。在数学推理、编程等需要严密逻辑思维的任务中，这些可以自由选择生成顺序的模型，其实际推理能力边界反而比传统的从左到右生成模型要窄。这就像一个可以随意跳跃的运动员，在需要精确控制每一步的平衡木比赛中，表现反而不如那个只能一步一步向前走的选手。

一、灵活性的陷阱：为什么"自由"反而成了束缚

要理解这个看似矛盾的现象，我们需要深入探讨这些AI模型是如何"思考"的。当面对一个复杂的数学问题时，传统的语言模型就像一个学生在考试时认真答题，必须按照题目的逻辑顺序，一步一步地推导。遇到难点时，学生必须硬着头皮思考，不能跳过。

而那些具有任意顺序生成能力的扩散模型，就像一个可以"开小差"的学生。当遇到困难的推理步骤时，这种模型会倾向于先去处理那些"简单"的部分，把困难的逻辑连接词和关键推理步骤留到最后再处理。乍看之下，这种策略似乎很聪明，但实际上却带来了一个严重问题。

研究团队发现，在数学推理过程中，那些看起来"困难"的词汇往往恰恰是最关键的逻辑转折点。比如"因此"、"所以"、"由于"这样的连接词，它们承载着推理过程中的核心逻辑关系。当AI模型选择绕过这些困难点，先去填写其他"容易"的内容时，就相当于先确定了结论，再回头去补充推理过程。这样一来，原本应该存在的多种推理可能性就被人为地限制了。

这种现象被研究团队命名为"熵降解"。用更通俗的话来说，就是本来充满各种可能性的思考过程，被提前"固化"了。就像你在解一道数学题时，如果提前看到了答案，再回过头去写解题过程，你的思路就会被这个已知答案所束缚，很难再探索其他可能的解法。

二、对抗不确定性：谁更勇敢面对推理的分岔路口

为了更深入地理解这个现象，研究团队进行了大量的对比实验。他们选择了几个具有代表性的扩散语言模型，包括LLaDA-Instruct、Dream-Instruct等，在数学推理任务GSM8K、MATH-500，以及编程任务HumanEval、MBPP上进行测试。

实验的设计很巧妙。研究人员让同一个AI模型用两种不同的方式来解决问题：一种是保持其原有的"灵活"特性，可以任意选择生成顺序；另一种是强制它按照传统的从左到右顺序来生成答案。然后，他们使用一个叫做"Pass@k"的指标来衡量模型的推理能力边界。这个指标的含义是：如果让模型尝试k次，至少有一次能得到正确答案的概率是多少。

结果令人惊讶。在GSM8K数学推理任务中，当k=1时（即只有一次机会），两种方式的表现相差不大。但随着尝试次数的增加，差异变得越来越明显。传统的从左到右生成方式展现出了更强的"潜力"——它能够在更多的尝试中找到正确的解决方案。这说明传统方式保留了更多的解题可能性，而"灵活"方式实际上限制了探索空间。

更有趣的是，研究人员还分析了两种方式各自能解决哪些问题。结果发现，"灵活"方式能解决的问题，几乎都在传统方式能解决的范围内，而传统方式能解决的许多问题，"灵活"方式却无法处理。在HumanEval编程任务中，传统方式独立解决了21.3%的问题，而"灵活"方式独立解决的问题仅占0.6%。这进一步证实了"灵活性陷阱"的存在。

三、深入机制：为什么逃避困难会适得其反

为了揭示这种现象背后的深层机制，研究团队对模型的内部工作过程进行了详细分析。他们发现，当扩散模型采用任意顺序生成时，它会系统性地避开那些具有高不确定性的词汇。

研究人员统计了在MATH-500数据集上，哪些词汇最容易被模型"跳过"。结果显示，被跳过频率最高的词汇包括"Therefore"（因此）、"Thus"（因而）、"Since"（由于）等逻辑连接词。这些词汇在推理过程中扮演着关键角色，它们是思维的"分岔点"，决定了推理将走向哪个方向。

进一步的分析揭示了问题的本质。在传统的从左到右生成过程中，当模型遇到这些逻辑连接词时，它必须在高度不确定的情况下做出选择。这种不确定性反映在"熵"这个指标上——熵值越高，表示可能性越多，选择越困难。但正是这种困难的选择，保持了推理过程的多样性和探索性。

相比之下，当扩散模型可以自由选择生成顺序时，它会优先处理那些"容易"的词汇，把困难的逻辑连接留到最后。但等到处理这些连接词时，周围的上下文已经确定了，原本的多种可能性被大大压缩。就像在一个迷宫中，如果你先确定了终点附近的路径，再回头选择起点附近的方向，你的选择就被终点路径所限制了。

研究团队通过"熵"的测量证实了这一点。在传统生成方式下，那些关键的逻辑连接词保持着较高的熵值，意味着模型在这些关键节点保留了多种选择的可能性。而在任意顺序生成方式下，这些词汇的熵值显著降低，表明选择空间被人为压缩了。

四、解决方案：回归简单的力量

基于这些发现，研究团队提出了一个看似"逆向"的解决方案：既然任意顺序生成限制了推理能力，为什么不直接放弃这种"灵活性"呢？他们开发了一个名为"JustGRPO"的训练方法，其核心思想极其简单——在训练阶段强制模型按照传统的从左到右顺序进行推理。

这个方法的巧妙之处在于，它只在训练过程中施加约束，而在实际应用时，模型仍然保留了并行处理的能力，可以同时生成多个词汇，从而保持高效的运行速度。这就像训练一个舞蹈演员时要求其严格按照基本动作练习，但在实际表演时，演员仍然可以展现出流畅自然的舞姿。

实验结果证实了这种"简单即美"的哲学。使用JustGRPO方法训练的模型在各项推理任务上都取得了显著的性能提升。在GSM8K数学推理任务中，准确率达到了89.1%，比之前的最好方法提高了3个百分点。在更加困难的MATH-500任务中，提升幅度更大，达到了6.1个百分点。

更重要的是，这种改进是全方位的，不仅体现在准确性上，还体现在稳定性上。无论是在128、256还是512个词的生成任务中，JustGRPO都表现出了一致的优势，这说明它确实提升了模型的根本推理能力，而不是针对特定任务的"投机取巧"。

五、保持优势：并行处理能力的完整保留

有人可能会担心，既然在训练时限制了模型的"灵活性"，是否会损害其原有的优势——并行处理能力？研究团队专门针对这个问题进行了验证。

他们使用了一种叫做"熵界限采样器"的技术来测试模型的并行处理性能。这种技术允许模型在推理时同时生成多个词汇，从而大大提升运行速度。测试结果令人惊喜：不仅JustGRPO训练的模型完全保留了并行处理能力，而且在速度-准确性的权衡上表现得更加出色。

具体来说，当采用更激进的并行策略（每步生成更多词汇）时，传统扩散模型的准确性会快速下降，而JustGRPO训练的模型却保持了相对稳定的表现。在MBPP编程任务中，当采用大约每步5个词的并行生成策略时，传统模型的性能急剧恶化，而JustGRPO模型的准确性仍然比基线高出25.5%。

这个结果特别有价值，因为它表明JustGRPO不仅仅是通过限制模型能力来提升特定指标，而是真正改善了模型的内在推理结构。训练时的顺序约束就像一个脚手架，帮助模型建立了更稳固的推理框架，而这个框架在各种应用场景下都能发挥作用。

六、广泛验证：跨任务的一致性表现

为了验证这些发现的普适性，研究团队在多个不同类型的任务上进行了广泛的测试。除了数学推理和编程任务外，他们还测试了不同的温度参数、采样策略和模型结构设置。

温度参数的测试特别有启发性。在传统观念中，较高的温度会让模型更"创新"，产生更多样化的输出。但研究发现，对于任意顺序生成的模型，需要更高的温度才能达到最佳性能，这进一步证实了"熵降解"现象的存在。模型需要人为注入更多随机性，才能部分补偿其内在的探索能力不足。

即使在这种"优化"的设置下，任意顺序生成仍然无法匹配传统顺序生成的推理潜力。这就像一个依赖兴奋剂的运动员，虽然可以暂时提升表现，但仍然无法超越天然具有优秀体能的选手。

研究团队还测试了不同的采样算法，包括负熵采样和边际采样等较为复杂的技术。有趣的是，那些能够改善任意顺序生成性能的采样算法，往往会让模型的行为更接近传统的从左到右生成模式。这进一步支持了研究的核心观点：在推理任务中，传统的顺序约束具有内在的价值。

七、效率分析：简单方法的实用优势

除了性能优势外，JustGRPO还展现出了实用性方面的显著优点。传统上，为扩散语言模型设计强化学习算法是一个极其复杂的工程挑战。由于这类模型可以用无数种不同的路径生成同一个结果，算法必须处理组合爆炸的复杂性，计算每种可能路径的概率几乎是不可能的任务。

现有的解决方案通常采用各种近似方法，但这些方法往往不稳定，需要大量的调参和工程优化。相比之下，JustGRPO通过放弃任意顺序生成，将这个复杂问题转化为传统语言模型的标准优化问题，大大简化了技术实现。

训练效率的对比实验显示了这种简化带来的实际价值。在相同的计算资源下，JustGRPO不仅收敛更快，而且最终性能更好。研究团队还尝试了一个有趣的优化：由于推理主要依赖于那些高不确定性的"分岔"词汇，他们将梯度计算限制在熵值最高的25%词汇上，进一步加速了训练过程。

这种工程上的简洁性对于实际应用具有重要意义。在AI技术快速发展的今天，那些既高效又易于实现的方法往往更容易被广泛采用，产生更大的实际影响。

八、理论反思：重新审视灵活性的价值

这项研究的意义远不止于提出了一个更好的训练方法，它还引发了对AI模型设计哲学的深层思考。长期以来，AI研究社区普遍认为，给予模型更多的自由度和灵活性总是有益的。这种观念在直觉上很有道理——人类专家在解决复杂问题时确实会采用多种不同的策略和路径。

但这项研究提醒我们，人类的灵活性和AI模型的灵活性可能有着本质的不同。人类专家的"非线性"思维建立在深厚的领域知识和直觉的基础上，他们知道什么时候可以跳跃，什么时候必须严格推导。而当前的AI模型缺乏这种高层次的元认知能力，它们的"灵活性"更像是一种盲目的优化倾向。

从认知科学的角度来看，这个发现也很有启发性。人类在学习复杂推理技能时，往往需要首先掌握严格的步骤和规则，只有在熟练掌握基础后，才能发展出灵活运用的能力。这项研究暗示，AI模型可能也需要类似的学习过程——先通过约束性的训练建立稳固的推理框架，再在此基础上发展更高级的能力。

九、实际应用：对AI系统设计的启示

这项研究对实际的AI系统设计提供了几个重要启示。首先，在设计处理复杂推理任务的AI系统时，不应该盲目追求表面上的灵活性，而应该更关注系统是否能够有效处理推理过程中的关键决策点。

其次，这项研究强调了训练策略的重要性。即使是同一个模型架构，采用不同的训练方式也可能产生截然不同的能力特征。JustGRPO的成功表明，有时候通过约束来引导学习反而能获得更好的结果。

对于正在开发或使用大语言模型的企业和研究机构来说，这项研究提供了一个实用的改进方向。与其投入大量资源开发复杂的任意顺序生成算法，不如专注于优化传统的序列生成方法，可能会获得更好的投资回报。

同时，这项研究也为评估AI系统能力提供了新的视角。传统上，我们往往只关注模型在单次尝试中的表现，但Pass@k这样的指标能够更好地反映模型的推理潜力和可靠性。这对于需要高可靠性的应用场景尤其重要。

十、未来展望：简约设计的新方向

这项研究开启了AI模型设计的一个新思路：在某些情况下，减少而不是增加模型的自由度可能是更好的选择。这种"简约主义"的设计哲学可能在其他AI任务中也有应用价值。

研究团队指出，他们的发现可能不仅适用于语言模型，也可能对其他类型的生成模型有启发。例如，在图像生成、音频合成等领域，是否也存在类似的"灵活性陷阱"？这些都是值得进一步探索的方向。

从更广的角度来看，这项研究也呼应了近年来AI领域的一个重要趋势：更加注重模型的可解释性和可控性。与其让模型在黑盒中进行复杂的优化，不如通过精心设计的约束来引导其行为，使其更符合人类的理解和需求。

当然，这并不意味着灵活性本身是有害的。关键在于如何在合适的时机、以合适的方式引入灵活性。研究团队的工作为这个平衡问题提供了宝贵的经验证据和理论洞察。

总的来说，这项由清华大学主导的研究挑战了AI领域的一个基本假设，证明了有时候"少即是多"的智慧。它不仅提供了一个实用的模型优化方法，更重要的是，它提醒我们在追求AI系统能力的过程中，要始终保持对基础原理的深入思考。正如研究团队在结论中所说，回到语言建模的基本秩序，可能正是下一代AI系统突破的关键所在。

Q&A

Q1：什么是扩散大语言模型的任意顺序生成能力？

A：扩散大语言模型可以不按传统的从左到右顺序生成文字，而是可以任意选择先写哪个词后写哪个词。就像写作文时可以先写结论再填补中间论证，或先写精彩段落再补充前后内容。这种灵活性理论上应该让AI找到更多解决问题的路径。

Q2：为什么灵活的生成顺序反而限制了AI的推理能力？

A：研究发现这种灵活性会让AI逃避困难的推理步骤。当遇到"因此"、"所以"等关键逻辑连接词时，AI会选择先处理简单部分，把困难的留到最后。但这样就相当于先确定结论再补充过程，原本的多种推理可能性被人为限制了，这被称为"熵降解"现象。

Q3：JustGRPO训练方法有什么优势？

A：JustGRPO强制模型在训练时按从左到右顺序推理，但保留了应用时的并行处理能力。实验显示这种方法在GSM8K数学推理中达到89.1%准确率，比之前最好方法提高3个百分点。关键是它既简化了技术实现，又提升了推理性能，还保持了高效运行速度。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.