微软亚洲研究院重大发现：AI推理训练真的能让机器变聪明|数学|原理|知名企业

微软亚洲研究院重大发现：AI推理训练真的能让机器变聪明

2025-06-24 23:04:06　来源: 至顶科技

北京举报

分享至

这项由微软亚洲研究院的温旭萌、刘子涵、郑舜等研究人员主导的研究发表于2025年6月，论文标题为《具有可验证奖励的强化学习隐性激励大语言模型中的正确推理》。有兴趣深入了解的读者可以通过arXiv:2506.14245v1访问完整论文。

近年来，人工智能领域出现了一个引人注目的现象：通过"强化学习"训练的AI模型在解决数学问题时表现出色，但学界对其真正的推理能力产生了质疑。就像学生考试时，有些人真正理解了解题思路，有些人则是靠运气蒙对答案。那么，经过特殊训练的AI究竟是真正学会了推理，还是只是变得更善于"蒙答案"呢？

这个问题的核心在于一种叫做"具有可验证奖励的强化学习"（RLVR）的训练方法。这种方法就像给AI配备了一位严格的数学老师：每当AI解出一道题，老师只会告诉它最终答案对不对，但不会检查解题过程是否正确。久而久之，AI学会了找到正确答案，但人们开始怀疑——它是真正理解了数学原理，还是只是学会了一些解题技巧？

为了解答这个疑问，微软研究团队展开了一项深入调查。他们发现，传统的评估方法存在一个重大缺陷：只关注最终答案是否正确，却忽略了思维过程的质量。这就像评判一个学生的数学水平时，只看他在多次尝试中是否能蒙对答案，而不检查他的解题步骤是否合理。

研究团队发现，许多看似"聪明"的基础AI模型实际上经常使用错误的推理过程得出正确答案。就像一个学生在解方程时计算步骤全错，但最后却意外得到了正确结果。这种现象在AI世界中相当普遍，特别是那些经过大量文本训练的模型，它们具有强大的"联想"能力，能够凭借对语言模式的记忆找到答案，即使推理过程并不严谨。

为了更准确地评估AI的真实推理能力，研究团队提出了一个新的评估标准，称为"CoT-Pass@K"。这个标准不仅要求AI给出正确答案，还要求其思维过程（Chain of Thought，简称CoT）必须逻辑清晰、步骤正确。这就像数学考试中，老师不仅要看最终答案，还要检查每一个解题步骤是否合理。

研究团队还建立了一套理论框架来解释RLVR训练的工作原理。他们发现，这种训练方法确实能够激励AI产生正确的推理过程。原理很简单：如果AI的思维过程更加严谨，那么它得出正确答案的概率就会更高。在训练过程中，系统会奖励那些得出正确答案的尝试，而拥有正确推理过程的AI自然更容易获得奖励，从而形成良性循环。

这就像培养一个学生解题能力的过程。虽然老师只对最终答案进行评分，但那些真正掌握了解题方法的学生，长期来看总是比那些依赖运气的学生表现更好。因此，通过持续的练习和反馈，AI会逐渐学会使用更加可靠的推理方法。

为了验证这一理论，研究团队进行了大量实验。他们使用了一个强大的AI模型作为"评判员"，专门检查其他AI的思维过程是否正确。这个评判员模型经过特殊训练，能够识别数学推理中的逻辑错误、计算错误和概念误用。

实验结果令人振奋。在传统的评估方法下，经过RLVR训练的模型似乎并没有比基础模型强多少，有时甚至表现更差。但当使用新的CoT-Pass@K标准时，训练后的模型表现出明显的优势。这说明RLVR训练确实提升了AI的推理质量，只是传统评估方法无法准确捕捉到这种提升。

研究团队特别关注了两个数学竞赛数据集：AIME 2024和AIME 2025。这些是美国中学数学竞赛的真题，难度较高且不太可能出现在AI的训练数据中，因此能够更客观地测试AI的推理能力。结果显示，经过RLVR训练的模型在这些测试中表现出了持续的优势，无论是在少量尝试还是大量尝试的情况下。

更有趣的是，研究团队还观察了训练过程中AI能力的变化。他们发现，正确推理能力的提升出现得很早，几乎从训练开始就能观察到改善。这表明RLVR训练确实在从根本上改善AI的思维模式，而不是仅仅让它记住更多解题套路。

通过分析训练数据，研究人员发现了一个有趣现象：在简单问题上，基础AI模型经常能够找到正确答案，但其推理过程往往存在缺陷。而经过RLVR训练后，AI不仅保持了找到正确答案的能力，其推理过程的质量也显著提升。这就像一个原本依赖直觉解题的学生，通过系统训练学会了规范的解题方法。

研究团队还解释了为什么在某些测试中，训练效果可能不够明显。当题目过于简单时，即使是基础模型也能轻松解决，因此训练效果不明显。当题目涉及的领域与训练数据差异较大时，训练效果也会受到限制。这提醒我们，AI的能力提升需要在合适的难度水平和相关领域内才能充分体现。

这项研究的意义远不止于学术层面。它为我们理解AI的学习机制提供了重要洞察，也为未来AI训练方法的改进指明了方向。更重要的是，它证明了AI确实可以通过适当的训练方法获得更强的推理能力，而不仅仅是记忆和模式匹配。

从实际应用角度来看，这项研究为开发更可靠的AI推理系统奠定了基础。当我们能够确信AI的推理过程是可靠的，而不仅仅是答案碰巧正确时，AI在教育、科研、工程等需要严谨逻辑的领域的应用将变得更加可靠。

研究团队也坦诚地指出了当前方法的局限性。目前他们主要依靠另一个AI模型来评判推理过程的正确性，这种方法虽然实用，但可能存在误判。此外，研究主要集中在数学推理领域，在其他类型的推理任务中的效果还需要进一步验证。

展望未来，这项研究为AI训练方法的发展开辟了新的道路。研究人员提出，未来的AI训练应该更加注重推理过程的质量，而不仅仅是最终结果的正确性。这可能需要开发更好的自动评估工具，或者设计新的训练目标来直接优化推理质量。

说到底，这项研究回答了一个关键问题：AI确实可以通过适当的训练方法学会更好的推理，而不仅仅是变得更善于找到正确答案。这为我们对AI能力的理解带来了重要转变——从关注"它能做什么"转向关注"它是如何思考的"。正如研究团队所说，真正的智能不在于能够给出正确答案，而在于能够进行可靠的推理。

这一发现对普通人意味着什么呢？随着AI推理能力的真正提升，我们可能很快就会看到在教育辅导、科学研究、工程设计等领域出现更加可靠的AI助手。这些AI不仅能给出答案，还能清晰地解释推理过程，让人类能够理解和验证其逻辑。这将大大提升人机协作的效率和可靠性。

当然，这也提醒我们在评估AI能力时要更加谨慎。仅仅看AI是否能给出正确答案是不够的，我们还需要理解它的思维过程。只有当AI的推理过程变得透明、可靠时，我们才能真正信任它在重要任务中的表现。

Q&A

Q1：什么是RLVR训练？它和传统AI训练有什么不同？ A：RLVR是"具有可验证奖励的强化学习"的简称，就像给AI配备了一位只看最终答案的老师。与传统训练不同，这种方法不直接教AI如何解题，而是让AI自己尝试，然后根据答案正确与否给予奖励。研究发现，这种方法能够间接激励AI发展出更好的推理能力。

Q2：为什么传统的评估方法不能准确反映AI的推理能力？ A：传统评估只看最终答案是否正确，就像只看学生考试成绩而不检查解题过程。许多AI模型能够通过记忆、联想或运气得到正确答案，但推理过程可能存在严重缺陷。这就导致我们高估了AI的真实推理能力。

Q3：CoT-Pass@K评估标准有什么特别之处？ A：这个标准不仅要求AI给出正确答案，还要求其思维过程必须逻辑清晰、步骤正确。就像数学考试中，老师既要看最终答案，也要检查每个解题步骤。通过这种更严格的评估，研究人员发现经过RLVR训练的AI确实具有更强的推理能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.