卡内基梅隆大学：人工智能"三阶段训练法"让AI推理能力飞跃提升|数学|预训练

分享至

当我们教孩子学数学时，通常会经历这样的过程：先让他们掌握基本的加减法，然后练习更复杂的运算，最后通过大量习题来巩固和提升技能。有趣的是，训练人工智能也遵循着类似的规律。来自卡内基梅隆大学语言技术研究所的Charlie Zhang、Graham Neubig和Xiang Yue在2025年12月发表的一项研究中，首次系统性地揭示了AI训练过程中"预训练、中期训练和强化学习"三个阶段如何协同工作，让AI的推理能力实现质的飞跃。这项题为"On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models"的研究，为我们理解AI如何变得更聪明提供了全新的视角。

过去，AI研究者们就像盲人摸象一样，各自专注于训练过程的某个环节，却无法看清整个训练体系的全貌。一些研究认为强化学习只能让AI在已有能力基础上变得更精准，就像磨刀石只能让刀变得更锋利，但无法让木棍变成刀。而另一些研究则声称强化学习能够真正扩展AI的能力边界，让它掌握前所未有的新技能。这种矛盾让整个研究领域陷入了困惑。

问题的根源在于现有AI训练过程缺乏控制。现代大型语言模型通常在海量的互联网数据上进行预训练，这些数据就像一个巨大的图书馆，但没有人知道里面到底装了什么书。当研究者试图评估后续训练阶段的效果时，就像试图测量一个学生通过补习提高了多少分，却不知道他原本的基础水平如何。正因为这种"黑箱"特性，研究者无法准确判断AI的新能力是真正习得的，还是只是把原有知识重新排列组合。

为了解决这个根本性问题，研究团队开发了一套完全可控的实验框架。他们创造了一种合成推理任务，就像为AI量身定制了一套标准化考试。这套"考试"有几个特别之处：首先，每个问题都基于明确的逻辑结构，就像数学题有固定的解题步骤一样，研究者可以清楚地追踪AI的每一步推理过程。其次，问题的难度可以精确控制，通过调整运算步骤的数量来设定不同的复杂程度。最重要的是，研究者可以完全控制每个训练阶段AI接触到的数据类型和难度范围。

在这个精心设计的框架下，研究团队重点考察了AI的两种核心能力。第一种是"深度推理能力"，也就是AI能否解决比训练时遇到的问题更复杂的新问题。这就像学会了基本的加减法后，能否解决更复杂的多步运算问题。第二种是"跨域迁移能力"，即AI能否将在一个场景中学到的推理方法应用到完全不同的场景中。比如，在动物园场景中学会的数量计算能力，能否应用到学校或电影院的场景中。

一、预训练阶段奠定基础，强化学习在边界处发力

研究的第一个重要发现颠覆了人们对强化学习作用的传统认知。强化学习并不是万能的能力提升器，它的效果极度依赖于预训练阶段建立的基础以及强化学习数据的选择策略。

当研究团队让AI在简单问题上进行强化学习时，结果令人意外。虽然AI在少量尝试中的表现确实有所改善，但当给它更多机会尝试同样的问题时，这种优势就消失了。这就像一个已经熟练掌握加法的学生，继续练习加法只能让他算得更快一些，但不会让他突然学会解方程。研究发现，对于AI在预训练中已经充分掌握的任务，强化学习只能起到"磨刀"的作用，让已有技能变得更加精准，却无法真正扩展能力边界。

真正令人兴奋的发现出现在AI的"能力边缘"。当强化学习的训练数据恰好针对那些AI觉得有挑战性但又不是完全不可能的问题时，效果截然不同。这些问题就像学生考试中的"压轴题"，足够有挑战性但仍在能力范围之内。在这种情况下，AI的表现出现了质的飞跃，在复杂推理任务中的成功率提升了42%。

这个发现的关键在于"恰到好处"的难度把控。如果强化学习的数据太简单，AI已经完全掌握，那就是在浪费时间。如果太困难，超出了AI的理解范围，那就像让小学生直接学微积分，效果必然不理想。只有当难度处于AI的"最近发展区"时，强化学习才能真正发挥作用，帮助AI突破原有的能力边界。

更有趣的是，这种突破不仅体现在强化学习针对的特定难度范围内，还能延伸到更高难度的任务中。当AI在中等复杂度问题上接受强化学习训练后，它解决高难度问题的能力也显著提升。这证明了强化学习确实能够培养AI的真正推理能力，而不是简单的模式记忆。

研究团队通过细致的分析发现，成功的强化学习需要满足两个关键条件。首先，预训练阶段不能完全覆盖强化学习要解决的问题类型，必须留有足够的探索空间。就像盖房子需要先打好地基，但地基不能直接就是完工的房子。其次，强化学习的数据必须精准定位在AI的能力边缘，这需要仔细的评估和调试。

这一发现为AI训练策略提供了重要指导。与其盲目地用强化学习训练AI，不如先仔细评估AI的当前能力水平，然后设计针对性的训练数据。这种精准化的训练方法不仅更加高效，还能确保AI真正获得新的能力，而不是在原地打转。

二、跨域迁移需要最小但充分的"种子"

AI的跨域迁移能力一直是研究者关注的焦点。就像人类学会了在数学课上使用计算技巧后，能否在购物时应用这些技巧来计算折扣，AI是否也具备这种灵活的迁移能力？研究团队通过精心设计的实验揭示了跨域迁移的奥秘。

研究团队创造了两个不同的推理场景：一个是关于动物园的问题，另一个是关于学校的问题。虽然表面上看起来完全不同，但底层的推理逻辑是相同的。他们让AI主要在动物园场景中进行预训练，只给予极少量的学校场景接触，然后观察强化学习能否帮助AI在学校场景中也表现出色。

实验结果令人惊讶。当AI在预训练阶段完全没有接触过学校场景，或者接触极少（仅0.1%）时，即使后续进行强化学习，AI在学校场景中的表现依然糟糕，成功率几乎为零。这就像一个只学过中文的人，即使再努力练习，也无法突然开始流利地说法语。

但是，当AI在预训练阶段哪怕只接触过1%的学校场景数据时，情况发生了戏剧性的转变。这一点点的"种子"足以让强化学习发挥魔力，AI在学校场景中的表现飞跃提升了60%。更令人惊奇的是，即使预训练中学校场景的比例进一步增加，改善的幅度也不会显著增长，这说明1%的接触已经足够建立迁移的基础。

这个发现揭示了AI学习的一个重要机制：强化学习无法凭空创造新能力，但它是一个强大的"放大器"，能够将预训练中的微弱信号放大成强大的能力。这就像种子必须存在土壤中才能发芽，但一旦发芽，适当的培育就能让它长成参天大树。

进一步的分析显示，AI的迁移方式也很有趣。当预训练接触很少时，AI倾向于直接复制在动物园场景中学到的推理模式，就像直接套用熟悉的解题模板。但随着预训练中学校场景接触的增加，特别是当任务复杂度提升时，AI开始创造出更加适合新场景的推理结构，展现出真正的适应性。

这一发现对AI训练具有重要的实际意义。与其试图在预训练阶段覆盖所有可能的应用场景，不如确保每个重要场景都有最基础的覆盖。这种策略既节省了训练资源，又为后续的强化学习留出了发挥空间。同时，这也解释了为什么一些AI系统在经过强化学习后能够在新领域表现出色，关键在于预训练阶段是否种下了相应的"种子"。

三、中期训练架起关键桥梁

在预训练和强化学习之间，还有一个经常被忽视但却至关重要的阶段——中期训练。如果说预训练是打地基，强化学习是装修，那么中期训练就是建造房屋主体结构的过程。这个阶段就像连接两座山峰的桥梁，它的作用远比想象中重要。

传统的AI训练往往直接从预训练跳到强化学习，但这种跨度可能过大。预训练阶段AI接触的是广泛而杂乱的信息，就像一个学生同时学习语文、数学、历史、地理等各种科目。而强化学习阶段则要求AI专注于特定的推理任务，这种突然的转变可能让AI感到"不适应"。

研究团队发现，在固定的计算资源下，如何分配中期训练和强化学习的比重对最终效果有巨大影响。他们设计了一系列实验，比较了五种不同的策略：完全中期训练、完全强化学习，以及三种混合策略（轻度强化学习、中度强化学习、重度强化学习）。

结果显示，针对不同类型的任务，最优策略截然不同。对于那些与训练数据相似的任务，轻度强化学习配合大量中期训练效果最好，成功率最高。这就像学生准备期末考试，如果题目类型比较熟悉，那么系统复习（中期训练）比大量刷新题（强化学习）更有效。

但对于那些超出训练范围的困难任务，重度强化学习表现最佳，即使以牺牲一些中期训练时间为代价。这种情况下，AI需要更多的探索和试错机会来突破原有的能力边界。就像攀登一座从未征服过的高峰，需要更多的实际攀爬练习，而不仅仅是理论学习。

中期训练的关键作用在于数据分布的平滑过渡。预训练阶段的数据杂乱无章，涵盖各种类型的问题，而强化学习阶段则专注于特定难度和类型的任务。中期训练通过提供介于两者之间的数据分布，帮助AI逐步适应这种变化，避免了突然转换可能带来的性能下降。

更重要的是，中期训练还能增强AI的"学习能力"本身。就像运动员在比赛前需要专门的适应性训练来调整状态，AI也需要中期训练来优化其内部表征，为后续的强化学习做好准备。经过中期训练的AI在接受强化学习时学习速度更快，效果更好。

实验数据显示，在相同的计算资源下，结合中期训练和强化学习的方法比单纯使用强化学习的效果提升了10.8%。这个提升看似不大，但在AI性能优化中已经是相当显著的改进。更重要的是，这种提升是稳定可靠的，不会因为任务类型的变化而失效。

四、过程监督让AI推理更可靠

AI推理过程中存在一个隐患：它可能通过错误的推理路径得到正确答案，就像学生在数学考试中用错误的公式却巧合地算出了正确结果。这种现象被称为"奖励欺骗"，它让AI看似表现良好，实际上却没有真正掌握正确的推理方法。

传统的强化学习通常只关注最终结果的正确性，就像只看学生的答案对不对，而不检查解题过程。这种评价方式可能误导AI学会一些投机取巧的方法，而不是真正的推理能力。为了解决这个问题，研究团队引入了"过程监督"的概念。

过程监督就像一位严格的数学老师，不仅要求学生答案正确，还要检查每一个解题步骤是否合理。在AI训练中，这意味着不仅要奖励正确的最终答案，还要奖励正确的推理过程。研究团队设计了一套评价体系，能够自动解析AI的推理过程，识别每一步是否符合逻辑。

实验中，研究团队测试了不同的奖励组合策略。最简单的方法是将结果奖励和过程奖励按某种比例混合，比如80%关注过程正确性，20%关注结果正确性。更严格的方法是只有在推理过程完全正确的情况下，才给予结果奖励。

结果令人鼓舞。引入过程监督后，AI在复杂推理任务中的表现提升了4-5%。虽然这个提升幅度看起来不大，但在AI领域，任何稳定的性能提升都是珍贵的。更重要的是，这种提升是"真实"的，基于正确的推理过程，而不是巧合或取巧。

深入分析显示，过程监督的影响远不止表面的性能提升。在没有过程监督的情况下，AI经常出现推理结构错误、遗漏关键步骤等问题。引入过程监督后，这些错误显著减少，AI的推理变得更加条理清晰，更像人类专家的思考过程。

这种改进不仅体现在准确率上，还体现在AI的推理一致性上。使用过程监督训练的AI在面对相似问题时，往往会采用类似的推理策略，表现出更好的稳定性。这对于实际应用来说极其重要，因为用户需要的是可预测、可依赖的AI系统。

过程监督的另一个重要优势是提高了AI的可解释性。当AI的每一步推理都受到监督时，我们可以更清楚地理解它是如何得出结论的。这不仅有助于调试和改进AI系统，也增加了人们对AI决策的信任度。

五、三阶段协同打造强大推理能力

将这些发现整合起来，研究揭示了一个完整的AI推理能力训练体系。这个体系就像培养一位优秀的侦探，需要经过系统性的分阶段训练，每个阶段都有其独特的作用和价值。

预训练阶段相当于让未来的侦探接受广泛的基础教育。在这个阶段，AI接触各种类型的推理问题，学习基本的逻辑操作和推理规则。关键是要确保覆盖面足够广，让AI对各种可能遇到的场景都有基础了解，即使是很少的接触也能为后续训练种下种子。这个阶段不求深度，但求广度和多样性。

中期训练阶段则像是专业化培训，让AI从广泛的基础知识向特定领域的专门技能过渡。这个阶段的数据更有针对性，难度也更适中，主要目的是让AI熟悉即将在强化学习中面对的任务类型。这种过渡性训练避免了从广泛预训练直接跳到高难度强化学习可能产生的"水土不服"。

强化学习阶段是整个培训的高潮，就像让侦探在真实案件中历练。但这个阶段的成功高度依赖于前两个阶段的基础。强化学习数据必须精准定位在AI的能力边缘，既不能太简单以至于没有挑战性，也不能太困难以至于完全无法理解。同时，必须结合过程监督，确保AI学到的是真正的推理能力，而不是投机取巧的技巧。

三个阶段的配合产生了惊人的协同效应。预训练提供了必需的基础"词汇表"和基本"语法规则"，中期训练建立了专门的"表达习惯"，强化学习则培养了灵活运用这些能力解决复杂问题的"智慧"。任何一个阶段的缺失或设计不当都会影响最终效果。

研究还发现，这种三阶段训练法的效果具有很强的鲁棒性。即使在不同的任务类型、不同的模型规模、不同的计算资源条件下，这种方法都能稳定地提升AI的推理能力。这说明研究发现的不是偶然现象，而是AI学习的基本规律。

更重要的是，这种训练方法培养出的AI推理能力具有很好的泛化性。在一种类型任务上训练的AI，往往能够在其他相关任务上也表现出色。这种能力迁移正是真正智能的标志，也是这项研究最有价值的成果之一。

通过这项研究，我们看到了AI训练的一个全新范式。过去那种"一把抓"式的训练方法正在被更科学、更精细的分阶段训练所取代。每个阶段都有明确的目标和作用，阶段之间有清晰的衔接关系，整个过程形成了一个有机的整体。

这种训练方法不仅提升了AI的能力，还提高了训练效率。通过合理分配不同阶段的计算资源，可以在相同的成本下获得更好的效果。对于AI研究者和开发者来说，这意味着可以更有针对性地设计训练策略，避免资源浪费。

说到底，这项研究告诉我们，训练一个真正聪明的AI就像培养一个优秀的学生一样，需要循序渐进，因材施教。不能指望一蹴而就，也不能忽视任何一个环节的重要性。正如研究团队所展示的，当我们真正理解了AI学习的规律，并据此设计训练方法时，AI的能力提升是令人惊喜的。

这项研究不仅为AI研究领域提供了重要的理论指导，也为实际应用开发指明了方向。随着这些方法的推广应用，我们有理由期待未来的AI系统将具备更强的推理能力，在更多领域为人类提供智能化的帮助。无论是自动化决策、智能教育、还是科学发现，这种更聪明的AI都将发挥重要作用。有兴趣深入了解的读者可以通过论文编号arXiv:2512.07783v1查询完整研究内容。

Q&A

Q1：什么是AI训练的三个阶段？

A：AI训练三个阶段是预训练、中期训练和强化学习。预训练让AI接触广泛的基础知识，中期训练进行专业化过渡培训，强化学习在AI能力边缘进行深度优化。每个阶段都有特定作用，三者配合能显著提升AI推理能力。

Q2：为什么强化学习不是万能的？

A：强化学习效果高度依赖预训练基础。如果AI在预训练中已经完全掌握某类任务，强化学习只能提升精度而非能力。只有当强化学习数据针对AI能力边缘的挑战性问题时，才能真正扩展AI的能力边界。

Q3：过程监督是什么？

A：过程监督是不仅检查AI答案正确性，还监督每个推理步骤合理性的方法。它能防止AI通过错误推理得到正确答案的"奖励欺骗"现象，确保AI学到真正的推理能力而非投机技巧，提升推理的可靠性和可解释性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.