清华深研院突破AI推理的"两难选择"：探索与利用居然可以兼得|算法|数学|原理

分享至

由清华大学深圳国际研究生院的黄凡丁、黄冠博等研究团队与加州大学洛杉矶分校、深圳技术大学合作完成的这项研究，于2025年9月发表在预印本平台arXiv上（论文编号：arXiv:2509.23808v2）。有兴趣深入了解的读者可以通过该编号查询完整论文。

很多人可能不知道，大型语言模型（就是我们常用的ChatGPT、Claude这类AI助手）在学习推理时面临着一个看似无解的难题：就像一个学生在考试时，是应该大胆尝试各种可能的解题思路（探索），还是专心使用已经熟练掌握的方法（利用）？传统观点认为，这两种策略就像跷跷板的两端，你只能选择其中一种，无法兼得。

这个问题的根源在于，大多数研究都是从"词汇"层面来衡量AI的表现，就像只看学生写出的每个字是否工整，而忽略了思维过程本身。清华深研院的研究团队却换了个角度，他们不再盯着表面的词汇输出，而是深入到AI大脑的"思考过程"中，在那个更深层的语义空间里寻找答案。

结果令人惊喜：在这个深层的思维空间里，探索和利用竟然可以同时进行，不再是非此即彼的选择题。基于这个发现，研究团队开发了一种名为VERL（速度利用排序学习）的新方法，它就像给AI配备了一个智能的"双引擎"系统，能够同时增强探索能力和利用能力。实验结果显示，在挑战性的高考2024数据集上，这种方法带来了高达21.4%的绝对准确率提升。

一、传统观念的局限：为什么"鱼和熊掌"真的可以兼得

长期以来，AI研究领域普遍认为，在训练大型语言模型进行推理时存在一个根本性的权衡：要么让模型大胆探索各种可能的解题路径，要么让它专注于已经掌握的可靠策略。这种观点几乎成了该领域的"常识"。

这种传统观念的形成有其历史原因。研究者们习惯于从"词汇级别"来分析模型的行为，就像通过观察一个人说话时每个词的选择来判断他的思维状态。在这种分析框架下，高熵值（词汇选择的随机性高）被视为探索性行为的标志，而低熵值（词汇选择更确定）则被认为代表利用性行为。

然而，这种基于词汇层面的分析方法存在内在的矛盾。过高的熵值会导致模型产生毫无意义的随机输出，就像一个人胡言乱语；而过低的熵值又会扼杀模型的创造性，使其变得僵化。更关键的是，由于一个模型的输出分布不可能同时既随机又确定，这种分析框架天然地将探索和利用视为对立的两极。

清华深研院的研究团队意识到，这种"常识"可能只是分析视角造成的假象，而非推理过程的本质特征。他们决定跳出词汇层面的分析框架，转而审视模型内部更深层的语义表征空间。

在这个语义空间中，研究团队发现了一个令人震撼的现象：探索和利用的相关性几乎为零。这意味着，在恰当的分析层面上，这两种能力并非天然对立，而是可以独立发展、同时增强的。这一发现彻底颠覆了传统观念，为同时提升AI推理能力的两个维度开辟了全新的可能性。

二、深入AI的"思维世界"：隐藏状态中的新发现

要理解这项研究的突破，我们需要先了解AI是如何"思考"的。当大型语言模型处理一个问题时，它不仅仅是在表面上生成词汇，更重要的是在内部进行着复杂的语义处理。这些内部的语义表征被称为"隐藏状态"，就像人类思维中那些还没有转化为语言的想法和概念。

研究团队创新性地引入了"有效排序"这一数学工具来量化模型在语义空间中的探索行为。传统的矩阵排序只能告诉我们有多少个独立的维度，但有效排序能够揭示这些维度的"质量分布"。打个比方，如果把推理路径比作探险路线，传统排序只能告诉我们有多少条路，而有效排序还能告诉我们这些路径被利用得是否均衡。

基于有效排序，研究团队进一步提出了两个动态指标：有效排序速度和有效排序加速度。有效排序速度衡量的是模型获取信息的"速度"，它反映了推理过程中信息增益的效率。当这个值较大时，说明模型正在高效地丰富其内部表征，这正是利用能力的体现。

有效排序加速度则更加有趣，它衡量的是信息获取速度的"变化趋势"。正值表示推理过程正在加速，模型的思维活跃度在增加；负值则意味着推理过程趋于稳定或饱和。研究团队发现，这个指标具有remarkable的稳定性，其增长阶数为O(1)，这使得它成为了一个可靠的"元控制器"信号。

最关键的发现来自于对不同推理结果的对比分析。研究团队发现，对于错误的推理路径，探索指标（有效排序）和利用指标（有效排序速度）往往都很高，这表明过度的探索加上过度的信息获取可能会让推理偏离正轨。相反，对于正确的推理路径，有效排序加速度始终保持较高的值，这说明持续的信息获取加速能力是区分正确推理和错误探索的关键指标。

这些发现不仅在理论上具有重要意义，更为实际应用提供了全新的思路。既然探索和利用在语义空间中是解耦的，那么就有可能设计出同时增强这两种能力的训练方法。

三、VERL方法：AI推理的"双引擎驱动"系统

基于对隐藏状态动态特性的深入理解，研究团队开发了VERL（Velocity-Exploiting Rank-Learning，速度利用排序学习）方法。这个方法的核心思想是通过直接塑造强化学习的优势函数来同时增强探索和利用能力。

VERL的工作原理可以比作给汽车安装双引擎驱动系统。传统方法就像单引擎汽车，要么专注于速度（利用），要么专注于越野能力（探索），无法兼顾。而VERL则像是配备了智能双引擎系统的全能车辆，能够根据路况自动调节两个引擎的协同工作。

具体来说，VERL使用有效排序加速度作为"智能调度器"。当这个指标显示未来推理过程可能过度自信时（正值较大），系统会增强对探索的激励，鼓励模型考虑更多的可能性，避免陷入局部最优解。当指标显示推理过程可能陷入停滞时（负值），系统则会加强对利用的奖励，促进模型更充分地挖掘当前推理路径的潜力。

这种双通道激励结构的设计非常巧妙。它不是简单地在探索和利用之间进行切换，而是创建了一个动态平衡的奖励机制。通过前瞻性地调整奖励信号，VERL能够在问题出现之前就进行预防性调节：既能预防过度自信导致的推理错误，又能巩固有效的推理收获。

VERL的另一个创新点在于其稳定性保证。由于有效排序加速度具有理论上的O(1)增长稳定性，它为训练过程提供了可靠的指导信号。这种稳定性使得VERL能够在不同类型的推理任务中都保持良好的性能，而不会因为任务特定的波动而失效。

实施VERL时，系统会实时监控每个推理序列的隐藏状态演化，计算相应的有效排序及其一阶、二阶导数，然后基于这些指标动态调整训练激励。整个过程是完全自动化的，不需要人工设定复杂的规则或阈值。

四、实验验证：从数学推理到复杂问题解决的全面提升

为了验证VERL方法的有效性，研究团队进行了大规模的实验验证，涵盖了多种不同规模的语言模型和多样化的数学推理基准测试。实验设计非常全面，既包括了相对简单的小学数学题，也包含了极具挑战性的奥林匹克级别数学竞赛题目。

在基础能力测试中，VERL展现出了显著的性能提升。以Llama-3.2-3B-Instruct模型为例，在应用VERL方法后，该模型在AIME24数据集上的准确率从3.3%提升到了13.3%，实现了10%的绝对提升。更令人印象深刻的是，在高考2024数据集这样的高难度测试中，VERL带来了21.4%的绝对准确率提升，这种幅度的改进在该领域是非常罕见的。

实验还验证了VERL方法的通用性。无论是应用于GRPO（群组相对策略优化）还是PPO（近端策略优化）这两种不同的强化学习框架，VERL都展现出了一致的性能提升。这表明VERL的核心思想具有很好的算法无关性，可以作为一种通用的增强技术集成到现有的训练框架中。

特别值得关注的是Pass@k实验的结果，这种测试方式更能体现模型的探索能力。在这类测试中，模型需要生成多个不同的解答尝试，只要其中一个正确就算成功。VERL在这类测试中的表现尤为出色，在某些数据集上Pass@k的改进幅度甚至超过了Pass@1的改进幅度，这直接证明了VERL在增强探索能力方面的有效性。

研究团队还进行了详细的消融实验，分析VERL中不同组件的贡献。结果显示，仅使用探索相关项会导致模型无法充分利用高奖励轨迹，最终性能提升有限。仅使用利用相关项虽然能带来短期的性能提升，但很快就会遇到瓶颈。只有将两者结合，才能实现稳定且持续的性能改进。

实验还揭示了一个有趣的现象：VERL不仅提升了模型的准确率，还增强了其推理过程的多样性。通过分析模型生成的推理路径，研究团队发现应用VERL后的模型能够使用更多样化的解题策略。例如，在几何问题求解中，VERL训练的模型会同时使用正弦定理、余弦定理和其他几何性质，而传统方法训练的模型往往过度依赖单一策略。

五、深度分析：解密VERL成功的关键机制

要真正理解VERL为什么如此有效，我们需要深入分析其背后的机制原理。研究团队通过大量的可视化分析和统计测试，揭示了VERL成功的几个关键因素。

首先是测量层级的重要性。传统方法在词汇层面观察到的探索-利用权衡，在隐藏状态层面几乎消失了。这种现象可以用信息处理的层次性来解释：词汇层面的输出是经过高度压缩和选择的结果，而隐藏状态则保留了更丰富的语义信息。在这个更丰富的表征空间中，模型有足够的"空间"同时进行探索和利用，而不会产生直接冲突。

其次是时序动态的关键作用。VERL的成功很大程度上依赖于对推理过程时序演化的精确捕捉。有效排序加速度之所以能够作为可靠的元控制信号，是因为它反映了推理过程的"健康状态"。当加速度保持正值时，说明模型的思维过程仍在积极演进；当加速度转为负值时，则可能意味着推理陷入了循环或停滞。

研究团队还发现了一个重要的模式：在正确的推理路径中，有效排序加速度往往呈现出特定的演化模式——初期快速增长，中期保持稳定，后期适度下降但仍保持正值。这种模式反映了良好推理过程的内在规律：开始时快速建立问题理解，中期稳定推进解题过程，最后收敛到正确答案。VERL正是通过识别和强化这种健康的推理模式来提升整体性能。

另一个关键机制是奖励塑形的前瞻性特征。与传统方法的事后奖励不同，VERL通过有效排序加速度实现了某种程度的"预测性奖励"。当系统检测到推理过程可能出现问题的早期信号时，它会主动调整激励结构，引导模型走向更健康的推理路径。这种前瞻性调节大大提高了训练的效率和稳定性。

VERL的成功还得益于其自适应性。传统的探索-利用平衡往往需要手工设定权重参数，而VERL通过有效排序加速度实现了动态自适应调节。每个推理序列的特定情况都会影响探索和利用的相对权重，使得系统能够针对不同类型的问题和不同的推理阶段采用最合适的策略组合。

六、实际应用案例：从理论到实践的转化

为了更好地理解VERL在实际应用中的表现，研究团队提供了多个具体的案例分析，这些案例生动地展示了新方法相比传统方法的优势。

在一个涉及负数比较的数学问题中，传统GRPO训练的模型错误地认为-1小于-13，这反映了模型在处理数值常识方面的不足。而使用VERL训练的模型则能够正确处理这类比较问题，展现出更强的数值推理能力。这个案例说明VERL不仅能提高准确率，还能增强模型对基础数学概念的掌握。

在一个房屋计数的应用题中，两种方法的差异更加明显。题目描述了一个社区有六条街道，每条街道两侧各有10栋房屋，且没有房屋面向两条不同的街道。传统方法训练的模型忽略了约束条件的深层含义，错误地推断每条街道只有10栋房屋。而VERL训练的模型则能够正确理解约束条件，逐步分析出每条街道实际有20栋房屋，从而得出正确的总数。

在微分方程求解这类更复杂的数学问题中，VERL的优势体现得更加突出。当要求找到纯指数解时，传统方法往往会忽略"纯指数"这一约束条件，给出包含多项式和三角函数的通解。而VERL训练的模型能够严格遵循题目要求，只给出符合条件的指数解。这种对问题约束的精确理解反映了VERL在提升推理严谨性方面的价值。

在Pass@16设置下的探索性测试中，VERL的表现更加令人印象深刻。对于一个求解函数定义域的问题，传统方法训练的模型在16次尝试中都给出了相同的错误答案，显示出探索能力的严重不足。而VERL训练的模型在16次尝试中有5次给出了正确答案，展现出更强的探索多样性和问题求解能力。

这些案例不仅验证了VERL的有效性，还揭示了其应用价值的多个维度：基础概念理解、约束条件处理、推理严谨性以及解题策略多样性。这种全方位的改进使得VERL不仅仅是一个性能优化工具，更是一个能够提升AI推理质量的系统性方法。

七、技术创新的深层意义：重新定义AI推理的可能性

VERL方法的成功不仅仅是一个技术层面的突破，更重要的是它从根本上改变了我们对AI推理过程的理解。这项研究的深层意义体现在几个关键方面。

首先，它挑战了关于探索-利用权衡的传统认知。长期以来，这种权衡被视为机器学习的基本原理之一，就像物理学中的守恒定律一样不可违背。然而，VERL的成功表明，在恰当的表征空间和合适的方法框架下，这种权衡是可以被超越的。这一发现可能会引发对其他看似基本的机器学习原理的重新审视。

其次，这项研究开创了基于语义表征动态性进行模型优化的新范式。传统的强化学习方法主要关注外在的奖励信号和行为输出，而VERL则深入到模型的内部表征过程，基于语义演化的内在规律来指导学习。这种内外结合的优化策略为AI系统的改进开辟了全新的方向。

VERL方法还展现了多尺度分析在AI研究中的重要价值。通过同时考虑响应级别和数据集级别的表征动态，研究团队获得了单一尺度分析无法提供的深层洞察。这种多尺度分析框架可能会成为未来AI研究的重要工具，帮助研究者更全面地理解复杂AI系统的行为规律。

该研究的另一个重要贡献是证明了理论分析与实际应用的有效结合。有效排序加速度的O(1)稳定性不仅是一个理论结果，更是VERL方法实用性的重要保障。这种理论指导实践、实践验证理论的研究模式为AI领域的发展提供了有价值的参考。

从更广阔的视角来看，VERL代表了AI能力提升的一种新思路：不是简单地增加模型规模或训练数据，而是通过更深入的理解和更精巧的方法来挖掘现有模型的潜力。这种"质量提升"型的改进路径在当前AI发展面临资源和环境约束的背景下具有特殊的意义。

VERL的成功还暗示了AI系统内在能力之间可能存在更多的协同关系，而不是简单的竞争关系。这一发现可能会启发研究者探索其他能力维度之间的潜在协同性，从而实现更全面的AI能力提升。

八、未来展望：从数学推理到通用智能的桥梁

虽然当前的研究主要集中在数学推理领域，但VERL的核心思想具有更广泛的应用潜力。数学推理只是复杂思维过程的一个具体体现，VERL揭示的语义表征动态规律很可能适用于其他类型的推理任务。

在自然语言理解任务中，VERL的双通道激励机制可能有助于模型在理解文本深层语义的同时保持对表面信息的敏感性。在代码生成任务中，这种方法可能能够帮助模型在探索创新解决方案和利用成熟编程模式之间找到更好的平衡点。

更进一步，VERL的方法论可能为多模态AI系统的开发提供新的思路。在处理图像、文本、音频等多种信息时，不同模态之间的协调也可能存在类似的"探索-利用"动态，VERL的框架可能为这类复杂系统的优化提供指导。

从长远来看，这项研究可能会推动强化学习理论的发展。传统强化学习主要关注环境奖励和行为策略之间的关系，而VERL引入的内在表征动态为这一框架增加了新的维度。这种扩展可能会催生新的理论框架和算法设计原则。

VERL的成功也为AI安全研究提供了新的视角。通过监控和调节模型内部表征的演化过程，我们可能能够更好地理解和控制AI系统的行为，从而提高系统的可预测性和安全性。

在实际部署方面，VERL的轻量级特性使其有望在资源受限的环境中发挥作用。与需要大量计算资源的模型扩展方法不同，VERL主要通过改进训练策略来提升性能，这使得它更容易在实际应用中推广。

当然，这项研究也面临一些挑战和限制。如何将VERL扩展到更大规模的模型和更复杂的任务仍需进一步探索。此外，不同领域的最优配置可能有所不同，这需要更多的经验积累和理论指导。

说到底，清华深研院这项研究的真正价值不仅在于提出了一个有效的技术方法，更在于它为我们重新思考AI能力发展提供了全新的角度。在人工智能快速发展的今天，这种深入本质、突破常规思维的研究精神特别值得我们学习和发扬。

通过证明探索和利用可以协同增强而非相互制约，VERL为AI推理能力的提升开辟了新的可能性。这不仅是技术层面的进步，更是认知框架的革新。随着这一思路的进一步发展和完善，我们有理由期待看到更多类似的突破，推动人工智能向着更加智能、更加可靠的方向发展。对于关注AI技术发展的读者来说，这项研究无疑提供了一个观察未来AI发展趋势的重要窗口。

Q&A

Q1：VERL方法与传统强化学习方法的核心区别是什么？

A：传统强化学习方法基于词汇层面分析，认为探索和利用存在根本冲突，只能二选一。VERL则深入到AI的语义表征空间（隐藏状态），发现这两种能力实际上可以解耦，并通过有效排序及其导数来同时增强探索和利用能力，就像给AI配备了智能双引擎系统。

Q2：有效排序加速度为什么能作为可靠的控制信号？

A：有效排序加速度具有理论上的O(1)增长稳定性，这意味着它不会因为问题规模或序列长度的变化而出现剧烈波动。研究发现，正确推理路径中这个指标往往保持较高值，而错误推理中则表现不佳，因此它可以作为区分推理质量的可靠指标来指导训练过程。

Q3：VERL方法的实际应用效果如何？

A：实验结果显示，VERL在多种数学推理任务上都取得了显著提升，其中在挑战性的高考2024数据集上实现了21.4%的绝对准确率提升。更重要的是，这种方法不仅提高了准确率，还增强了推理过程的多样性，让AI能够使用更丰富的解题策略而不是过度依赖单一方法。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.