清华大学突破性发现：AI训练的"双重人格"竟然可以完美融合！|数学|算法|实验

清华大学突破性发现：AI训练的"双重人格"竟然可以完美融合！

2025-09-24 21:10:14　来源: 科技行者

北京举报

分享至

在人工智能的世界里，有一个长久存在的难题就像教育孩子一样复杂：你是让孩子先跟着老师一板一眼地学习标准答案，还是让他们自由探索、从试错中成长？这个看似简单的选择，在大语言模型的训练中却一直让研究者们头疼不已。

这项由清华大学计算机系吕星泰、左玉欣等研究团队联合上海AI实验室和微信AI共同完成的突破性研究，发表于2025年9月，为这个困扰业界已久的问题提供了令人惊喜的答案。有兴趣深入了解的读者可以通过arXiv:2509.04419v1访问完整论文。研究团队发现，原本看似对立的两种训练方法——监督微调和强化学习——实际上就像一枚硬币的两面，它们不仅不冲突，反而可以完美融合，创造出更强大的AI系统。

回到现实生活中的教育场景，监督微调就像是让学生照着标准答案学习，这种方法见效快，能让AI迅速掌握人类专家的解题思路。而强化学习则像是让学生自己摸索，通过不断尝试和获得反馈来提升能力，这种方法虽然慢一些，但能培养出更强的创新和适应能力。

长期以来，业界普遍认为这两种方法只能分阶段使用——先让AI通过监督微调打好基础，再用强化学习进行提升。这种做法不仅消耗大量计算资源，还需要精心调整各个阶段的参数，就像要同时当两种完全不同风格的老师一样困难。

然而，清华研究团队的这项工作彻底颠覆了这种认知。他们通过深入的数学分析发现，监督微调和强化学习在本质上都在优化同一个目标函数，只是采用了不同的数学路径而已。这就好比两个人要从北京到上海，一个人选择坐高铁，另一个人选择开车，虽然方式不同，但目的地是一样的。

基于这个重要发现，研究团队提出了一个统一的数学框架，他们称之为"统一策略梯度估计器"。这个框架就像一个万能遥控器，可以控制不同品牌的电视机一样，它能够统一描述各种不同的AI训练算法。更有意思的是，研究团队发现所有这些不同的训练方法，其实都可以拆解成四个基本组件：稳定性掩码、参考策略、优势估计和似然梯度。

稳定性掩码就像汽车的安全带，当训练过程出现不稳定迹象时，它会及时"踩刹车"，防止AI的学习过程失控。参考策略则像是学习过程中的参照物，告诉AI什么样的表现是可以接受的。优势估计相当于给AI的每一个尝试打分，让它知道哪些行为值得鼓励。似然梯度则是具体的学习机制，指导AI如何根据反馈调整自己的参数。

这个统一框架的意义远不止于理论层面的突破。就像发现了电磁统一理论一样，它为开发更高效的AI训练方法奠定了基础。研究团队基于这个理论框架，开发出了一种全新的训练算法，叫做"混合后训练"（HPT）。

混合后训练就像一个智能的私人教练，它能够实时判断AI学生当前的学习状态，然后动态调整教学策略。当AI在某个问题上表现不好时，系统会自动切换到监督微调模式，让AI先跟着标准答案学习；当AI表现良好时，系统又会切换到强化学习模式，让AI进行更多的自主探索。

这种动态切换机制的核心是一个简单而巧妙的"门控"系统。研究团队让AI先尝试解答一些问题，然后根据正确率来决定采用哪种训练方式。如果正确率低于设定的阈值，就使用监督微调；如果高于阈值，就使用强化学习。这就像一个自动调节的恒温器，能根据环境温度自动调整加热或制冷模式。

为了验证这个方法的效果，研究团队在多个数学推理任务上进行了大规模实验。他们使用了不同规模的模型，包括15亿参数的小型模型、70亿参数的中型模型，以及80亿参数的大型模型。实验涵盖了从美国数学邀请赛（AIME）到国际数学奥林匹克竞赛等多个层次的数学问题。

实验结果令人印象深刻。在最具挑战性的AIME 2024测试中，使用混合后训练的AI模型比最强的基准方法高出了7个百分点，这在AI竞赛中是一个相当显著的提升。更重要的是，这种方法不仅在单一答案的准确性上表现出色，在需要多次尝试的Pass@1024测试中也取得了最佳成绩，说明AI不仅能给出正确答案，还具备了更强的探索和泛化能力。

研究团队通过详细的训练过程可视化分析，揭示了混合后训练的工作机制。他们发现，在训练初期，当AI的能力还比较弱时，系统主要依靠监督微调，让AI大量学习专家示例。随着训练的进行，AI逐渐具备了一定的问题解决能力，系统开始更多地采用强化学习，让AI进行自主探索。最终，系统会在两种方法之间找到一个动态平衡点。

这种训练方式的另一个重要优势是保持了AI的"好奇心"。传统的强化学习训练容易让AI变得过于保守，只选择那些有把握的简单问题来解决。而混合后训练通过适时引入监督学习的"营养补给"，让AI能够持续保持对复杂问题的探索欲望。

研究团队还发现了一个有趣的现象：不同规模的模型需要不同的门控阈值。大型模型由于本身能力较强，可以更早地切换到强化学习模式；而小型模型则需要更长时间的监督学习来打好基础。这就像不同年龄的学生需要不同的教学方法一样，体现了个性化教育的重要性。

从技术创新的角度来看，这项研究的意义不仅在于提出了一个新的训练算法，更重要的是它揭示了AI训练领域的一个根本性原理。研究团队证明了，看似不同的训练方法其实都在解决同一个优化问题，只是在偏差和方差之间做出了不同的权衡选择。这个发现为未来开发更多创新的训练方法提供了理论指导。

在实际应用层面，这项技术突破意味着AI训练将变得更加高效和经济。传统的分阶段训练方法需要大量的计算资源和精心的参数调整，而混合后训练能够在单一训练过程中自动实现最优的方法组合，大大降低了训练成本和技术门槛。

研究团队还对训练过程中的各种动态指标进行了深入分析。他们发现，使用混合后训练的AI模型不仅在准确率上有所提升，在输出多样性（熵值）和推理长度方面也表现出更好的特性。这说明AI不仅学会了给出正确答案，还掌握了更丰富的推理策略。

值得注意的是，这种方法的成功并不依赖于复杂的工程技巧或大量的超参数调整。研究团队使用的门控机制非常简单——就是一个基于性能表现的二元选择开关。这种简洁性使得该方法具有很强的实用性和可推广性。

从更广阔的视角来看，这项研究为人工智能的学习方式提供了新的思路。它表明，最有效的学习可能不是单一方法的极致应用，而是多种方法的智能组合。这个原理不仅适用于数学推理，很可能也适用于其他认知任务，如语言理解、创意写作或复杂决策。

研究团队在论文中还详细分析了不同组件对最终性能的贡献。他们发现，稳定性掩码主要影响训练的稳定性，参考策略影响学习效率，优势估计影响探索质量，而似然梯度则直接关系到知识的内化程度。这种细粒度的分析为进一步优化训练算法提供了具体的方向。

这项工作的另一个重要贡献是建立了理论与实践之间的桥梁。长期以来，AI训练更多依赖经验和试错，而这项研究通过严格的数学推导，为实践中的成功经验提供了理论解释，同时也为未来的算法设计提供了科学依据。

说到底，这项研究最大的价值在于它改变了我们对AI学习的根本认知。它告诉我们，不同的学习方法之间并不存在不可调和的矛盾，关键在于找到它们的共同本质和最佳组合方式。这种思路不仅适用于AI系统，也为人类教育和学习提供了有益的启示。

归根结底，清华研究团队的这项工作为AI训练开辟了一条新的道路。它不再是监督学习与强化学习的非此即彼，而是两者的有机融合。这种融合不仅提高了AI的性能，还降低了训练的复杂度和成本，为AI技术的普及应用奠定了重要基础。对于普通人来说，这意味着未来我们将看到更聪明、更可靠的AI助手，它们能够在各种任务中为我们提供更好的帮助。有兴趣了解更多技术细节的读者，可以通过论文编号arXiv:2509.04419v1查阅完整的研究报告。

Q&A

Q1：统一策略梯度估计器是什么？它解决了什么问题？

A：统一策略梯度估计器是清华研究团队提出的数学框架，就像一个万能遥控器可以控制不同品牌电视机一样。它统一描述了监督微调和强化学习等不同AI训练方法，解决了长期以来这些方法看似对立、难以融合的问题，证明了它们本质上都在优化同一个目标。

Q2：混合后训练相比传统方法有什么优势？

A：混合后训练就像智能私人教练，能根据AI当前表现动态调整教学策略。相比传统的先监督微调再强化学习的分阶段方法，它在单一训练过程中就能自动找到最佳方法组合，大大降低了计算成本和技术门槛，同时在数学推理任务上实现了显著的性能提升。

Q3：这项研究对普通人有什么实际意义？

A：这项研究将让AI训练变得更高效经济，降低了技术门槛，意味着未来会有更多聪明可靠的AI助手出现在我们的日常生活中。无论是智能客服、教育辅导还是其他AI应用，都将因为这种更优的训练方法而变得更加智能和实用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.