MIT带来强化学习新突破：让AI像人类一样探索多样解题策略|数学|实验

MIT带来强化学习新突破：让AI像人类一样探索多样解题策略

2026-01-29 20:45:04　来源: 至顶AI实验室

北京举报

分享至

这项由麻省理工学院、新加坡国立大学、耶鲁大学和南洋理工大学共同完成的研究发表于2025年1月，论文编号为arXiv:2601.08763v2。研究团队提出了一种名为"独特性感知强化学习"的全新训练方法，专门用来解决大型语言模型在解决复杂问题时经常遇到的"思维僵化"问题。

想象一下，如果你让一个很聪明的学生反复练习数学题，刚开始他可能会尝试各种不同的解法，但随着练习的进行，他逐渐发现某种方法最容易得分，于是就只用这一种方法了。虽然这样做能保证基本的正确率，但当需要他提供多种解题思路时，他就显得束手无策了。这正是目前人工智能大模型面临的核心问题：在强化学习训练过程中，模型会逐渐收敛到少数几种"安全"的解题模式，虽然单次尝试的成功率可能很高，但缺乏解题策略的多样性。

这种现象在学术界被称为"探索崩溃"，就像一个原本充满创造力的艺术家，因为某种画风特别受欢迎，就放弃了其他所有的创作风格。对于需要多次尝试来解决难题的场景来说，这种单一化的思维模式显然是不够的。

研究团队发现了问题的根源：传统的训练方法主要关注单个词汇或局部行为的多样性，但这种表面的多样性并不能真正代表解题策略的丰富性。两个看似不同的解答过程，可能使用了完全相同的核心思路，只是在表述方式上略有差异。就好比同一道二次方程，有人写成详细的逐步推导，有人直接给出简化结果，虽然表面形式不同，但本质上采用的都是二次公式法，而不是因式分解这种截然不同的策略。

为了解决这个问题，研究团队开发了一套巧妙的解决方案。他们的核心想法是：不应该仅仅奖励正确答案，而应该特别奖励那些既正确又罕见的解题策略。这就像在一个创意比赛中，不仅要看作品是否优秀，更要看是否具有独创性。

具体来说，他们的方法包含了一个智能的"策略识别器"。当AI模型为同一个问题生成多个解答时，这个识别器会分析每个解答的核心策略，将使用相同高层思路的解答归为一类，而忽略那些仅仅是表面差异的变化。然后，系统会给使用稀有策略的正确解答更高的奖励，给使用常见策略的解答较低的奖励。这样一来，模型就被鼓励去探索和保持多样化的解题方法。

这种方法的巧妙之处在于，它在保证解答正确性的同时，还激励了策略的创新性。就像一个好的老师，不仅会表扬做对题目的学生，更会特别鼓励那些想出独特解法的学生，这样既保证了学习效果，又培养了创造性思维。

研究团队在数学、物理和医学三个不同领域进行了大规模实验验证。在数学方面，他们使用了包括美国数学邀请赛（AIME）和人类最后考试（HLE）等高难度数学竞赛题目。在物理领域，他们测试了奥林匹克物理竞赛的问题。在医学领域，则使用了复杂的临床案例推理题目。

实验结果证明了这种方法的有效性。当需要模型提供多个解答尝试时（比如提供64个、128个甚至256个解答），使用新方法训练的模型表现出了显著优于传统方法的成功率。更重要的是，随着尝试次数的增加，这种优势变得更加明显。这表明新方法确实让AI保持了解题策略的多样性，而不是简单地重复同一种思路。

为了更深入地验证效果，研究团队还进行了一项有趣的人工评估实验。他们挑选了20个极具挑战性的数学竞赛题目，收集了每道题的多种人类专家解法，然后比较不同训练方法的AI模型能够覆盖多少种人类策略。结果显示，使用传统方法的模型往往只能掌握最常见的一两种解法，而使用新方法的模型能够学会更多样的策略，包括一些需要深刻洞察的高级方法。

以一道几何题为例，传统模型可能只会使用勾股定理和余弦定理这些基础方法，而新方法训练的模型还能掌握对称点相似性、三切线引理等更加精巧的几何技巧。这种差异在组合数学问题中表现得更为明显，新方法让AI学会了二进制约束表示、内部线段分类分析、轨迹流观点等多种不同的思考框架。

有趣的是，研究团队还发现，这种训练方法不仅提高了解题的多样性，还在一定程度上保持了模型的"好奇心"。通过监测训练过程中模型行为的随机性程度，他们发现传统方法会让模型变得越来越确定化和保守，而新方法则让模型在整个训练过程中保持了较高的探索意愿。

这项研究的意义不仅限于技术层面的改进。在实际应用中，当人们遇到困难问题时，往往需要AI能够提供多种不同的思路和方案，而不是简单地重复同一种方法。无论是科学研究、工程设计还是创意写作，多样化的思维方式都是至关重要的。

当然，这种方法也面临一些挑战。最主要的是，它需要一个智能的策略识别系统来判断不同解答之间的真正差异，这本身就是一个复杂的任务。在某些情况下，这个识别系统可能会出现误判，将本质相同的策略误认为不同，或者将真正不同的策略归为一类。

另外，这种方法主要关注单个问题内部的策略多样性，还没有考虑跨问题的长期创新能力。未来的研究可能需要进一步扩展这个框架，使AI能够在更广泛的知识领域内保持持续的创造性。

从更广阔的视角来看，这项研究代表了人工智能训练方法的一个重要转变：从单纯追求准确率向同时追求准确性和创造性的方向发展。这种思路不仅适用于数学和科学问题，也可能在艺术创作、商业策划、教育方法等各个领域发挥重要作用。

研究团队已经将他们的代码和数据开源，供其他研究者使用和改进。这意味着更多的科研团队可以在此基础上进一步发展，推动整个领域的进步。

说到底，这项研究解决的是一个非常现实的问题：如何让AI既聪明又有创造力。在未来的人工智能时代，我们需要的不是只会标准答案的机器，而是能够提供多元化思路和创新解决方案的智能伙伴。这项研究为实现这个目标提供了一个有希望的方向。

对于普通用户来说，这意味着未来的AI助手可能会变得更加灵活和富有创意。当你向它询问一个复杂问题时，它不会只给你一种千篇一律的回答，而是能够从多个角度提供不同的见解和解决方案。这样的AI将更像一个真正的思考伙伴，而不是一个简单的信息检索工具。

有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2601.08763v2查询完整论文，其中包含了详细的算法设计、实验数据和技术实现方案。

Q&A

Q1：独特性感知强化学习和传统AI训练方法有什么不同？

A：传统方法主要关注让AI给出正确答案，而独特性感知强化学习不仅要求答案正确，还特别奖励那些使用罕见解题策略的回答。就像老师不仅要表扬做对题的学生，还要特别鼓励想出独特解法的学生。这样可以防止AI只学会一种"安全"的解题方法，而是保持多样化的思维方式。

Q2：这种新方法在哪些领域进行了测试？

A：研究团队在数学、物理和医学三个不同领域进行了大规模测试。数学方面使用了美国数学邀请赛等高难度竞赛题目，物理领域测试了奥林匹克物理竞赛问题，医学领域则使用了复杂的临床案例推理。实验结果表明，当需要多次尝试解决问题时，新方法的成功率显著高于传统方法。

Q3：普通用户什么时候能用上这种技术？

A：虽然研究团队已经开源了相关代码，但这种技术要真正应用到日常AI产品中还需要一些时间。不过，这项研究为未来开发更有创造力的AI助手指明了方向。未来的AI可能不会只给你标准答案，而是能从多个角度提供不同的见解和解决方案，成为真正的思考伙伴。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.