斯坦福与英伟达联合：AI训练为什么"炒冷饭"比"吃新鲜"更有效？|数学|推理|ai训练

分享至

这项由纽伦堡科技大学、Mistral AI和英伟达联合开展的研究发表于2026年2月，论文编号为arXiv:2602.11149v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们教孩子学数学时，通常会让他们反复练习同一类题目，直到完全掌握为止。但在人工智能训练领域，长期以来的主流观念却恰恰相反——认为应该给AI模型喂入尽可能多的不同数据，就像让孩子每天都学习全新的知识点一样。然而，这项突破性研究却发现了一个颠覆常识的现象：在训练AI进行复杂推理时，让模型反复学习同样的内容，竟然比不断喂入新数据更加有效。

研究团队专门研究了一种叫做"有监督微调"的AI训练方法，这就像是在AI已经掌握了基础知识后，专门教它如何进行复杂的数学推理。他们发现，与其让AI学习大量不同的推理案例，不如让它在相同的案例上反复练习更多轮次。这种"重复学习"的效果好得令人惊讶——在相同的训练时间内，反复练习400个样本128轮的AI模型，竟然比只练习51200个不同样本1轮的模型表现好12-26个百分点。

这个发现彻底挑战了传统机器学习的核心假设。就好比我们一直认为学生应该广泛阅读各种不同的书籍来提高写作能力，结果却发现让学生反复研读同一本经典名著效果更好。更有趣的是，研究人员找到了一个简单的判断标准：当AI模型能够完全记住训练材料时，它的推理能力就达到了峰值，继续增加练习轮次也不会带来更多提升。

这项研究不仅为AI训练提供了新的实用方法，更重要的是揭示了一个全新的科学谜题——为什么在推理训练中，完全记住训练内容反而能提升AI在全新问题上的表现能力？这个现象背后的机制仍然是个未解之谜，为整个AI研究社区提出了新的挑战。

一、传统观念的颠覆：重复真的比新鲜更好吗？

在机器学习的世界里，有一个几乎被视为金科玉律的原则：数据越多越好，而且最好是各不相同的新数据。这就像营养学中"饮食要多样化"的建议一样深入人心。研究人员一直相信，给AI模型提供更多不重复的训练样本，就能让它更好地理解这个世界的复杂性。

然而，当研究团队开始仔细研究AI的推理训练过程时，他们发现了一个令人困惑的现象。在训练AI进行数学推理时，传统的"多样化数据"策略似乎并不是最优选择。为了验证这个怀疑，他们设计了一个巧妙的实验：在保持总训练时间相同的前提下，比较两种不同的训练策略效果。

第一种策略遵循传统思路，让AI模型学习尽可能多的不同推理案例，每个案例只学一次。第二种策略则反其道而行之，让模型反复学习相同的推理案例多次。这就像比较两种学习方法：一种是每天学习30道不同的数学题，另一种是每天反复练习同样的10道题3次。

实验结果令所有人大吃一惊。在著名的AIME数学竞赛题目和GPQA科学问答测试中，采用"重复学习"策略的AI模型表现远远超出预期。具体来说，一个在400个样本上训练128轮的模型，竟然比在51200个不同样本上只训练1轮的模型表现好12-26个百分点。这相当于一个学生通过反复练习少量经典题目，最终在考试中的表现比那些刷了大量题海的学生还要好。

更让人意外的是，这种重复学习的优势在不同规模的AI模型上都能观察到。无论是70亿参数的OLMo3模型，还是80亿参数的Qwen3模型，都表现出了相同的规律。这说明这个现象并不是某个特定模型的偶然特性，而是一个更加普遍的规律。

研究人员进一步发现，这种优势主要体现在模型的"终止率"上。简单来说，就是AI模型能否完整地完成一个推理过程并给出最终答案的能力。那些只训练一轮的模型经常会在推理过程中"卡住"，无法给出最终答案，而反复训练的模型则能够更加流畅地完成整个推理链条。这就像学生在解题时，经验不足的学生容易在中途迷失思路，而经过充分练习的学生能够始终保持清晰的解题思路直到得出答案。

二、神奇的记忆临界点：完美记忆竟是最佳停止信号

在深入研究这种"重复学习"现象时，研究团队发现了一个更加有趣的规律。他们注意到，模型的推理能力提升并不是无限制的，而是会在某个特定的点达到峰值。更奇妙的是，这个峰值点恰好对应着模型完全记住训练材料的时刻。

这个发现可以用学钢琴的例子来理解。当学生刚开始练习一首曲子时，需要看谱演奏，经常出错。随着练习次数增加，错误逐渐减少。当学生能够不看谱完美演奏这首曲子时，他们对音乐的理解和技巧掌握也达到了最高水平。继续练习同一首曲子虽然不会带来明显的技能提升，但也不会让已有的能力退化。

研究人员通过测量模型在训练数据上的"记忆准确度"来量化这个现象。记忆准确度就是模型能够准确预测训练文本中每个词语的比例。他们发现，当这个准确度达到接近100%时，模型在全新测试问题上的表现也同步达到峰值。这种强烈的相关性在所有测试的模型和数据集上都能观察到，这为训练过程提供了一个简单而实用的停止信号。

有趣的是，这个"记忆饱和"现象主要受训练轮次影响，而不是训练样本的数量。即使是在很少的样本上训练很多轮，模型也能达到完美记忆；相反，在很多样本上只训练少数几轮，模型的记忆准确度始终不高。这就像学生背诵古诗一样，反复朗读同一首诗比每天读不同的新诗更容易达到熟练背诵的程度。

更重要的是，当模型达到记忆饱和后，它在训练数据上的表现会出现典型的"过拟合"迹象——训练损失继续下降，但验证损失开始上升，模型的预测变得过于自信。按照传统机器学习理论，这应该是个坏兆头，意味着模型开始"死记硬背"而失去泛化能力。然而，令人困惑的是，尽管出现了这些过拟合信号，模型在全新推理任务上的表现却依然保持在最优水平。

这个矛盾现象揭示了推理训练与传统机器学习任务的本质差异。在传统任务中，过拟合通常意味着性能下降；但在推理训练中，达到完美记忆似乎是释放模型潜在推理能力的必要条件。这就像武侠小说中的"内功心法"——只有将基础心法练到炉火纯青的地步，才能发挥出最强的武功威力。

三、训练数据品质的意外发现：错误答案也有价值

为了更深入理解这种重复学习现象，研究团队开始探索训练数据本身的特性如何影响这个效应。他们首先关注的是"老师模型"的质量差异。在AI训练中，通常需要一个更强大的"老师模型"来生成推理过程的示范，然后用这些示范来训练较小的"学生模型"。

研究人员比较了两种不同能力的老师模型：一个是参数量只有6亿的较小模型，另一个是80亿参数的大型模型。结果发现，无论老师模型强弱如何，重复学习的优势都依然存在。不过，有趣的是，当老师模型较弱时，增加训练数据量反而会导致学生模型性能下降。这种现象类似于"弱-强泛化"理论中描述的情况——当老师水平有限时，学生最初可能通过自己的努力超越老师，但如果过度依赖老师的指导，反而会被拖累。

相反，当老师模型足够强大时，增加训练数据量和增加重复轮次都能带来性能提升，但重复轮次的作用仍然更为显著。这说明老师的质量决定了数据扩展的价值上限，但即使有了优秀的老师，充分的重复练习依然是不可替代的。

更令人意外的发现来自对"错误推理轨迹"的研究。在生成推理示范的过程中，即使是最强的老师模型也会犯错，产生一些最终答案错误的推理过程。按照常理，这些错误示范应该被剔除，以免误导学生模型。然而，研究团队决定专门研究这些"负面教材"的作用。

他们将训练数据按照最终答案的正确性分为两组：正确推理轨迹和错误推理轨迹，然后分别训练学生模型。结果发现，即使是在错误轨迹上进行重复学习，模型的推理能力依然会提升，而且重复学习的优势模式完全一致。更加令人惊讶的是，在某些测试中，用错误轨迹训练的模型表现甚至略好于用正确轨迹训练的模型。

这个发现挑战了我们对"正确答案"的固有认知。就像学生在做错题时，错误的解题过程中往往包含了对问题的深入思考和多种解题思路的尝试，这些思考过程本身就具有学习价值。AI模型可能通过学习这些"失败的尝试"，获得了对问题本质的更深层理解，从而在面对新问题时表现得更好。

这个现象还暗示，那些产生错误轨迹的问题往往是更具挑战性的难题——连强大的老师模型都无法轻易解决。让学生模型接触这些高难度问题的解题尝试，即使最终答案是错的，也能锻炼模型处理复杂推理的能力。这就像让学生观摩数学竞赛选手解难题的过程，即使选手最终没能得出正确答案，学生也能从中学到宝贵的解题思路和方法。

四、意外的副作用：重复学习反而减少遗忘

在验证重复学习效果的过程中，研究团队还关注了一个重要问题：这种专门化训练会不会让AI模型"一叶障目，不见泰山"——在推理能力提升的同时，丢失其他重要能力？这种现象在AI训练中被称为"灾难性遗忘"，就像专门练习钢琴的人可能会忘记如何弹吉他一样。

为了检验这个担忧，研究人员使用MMLU测试来评估模型的综合知识保留情况。MMLU是一个涵盖57个不同学科的广泛知识测试，包括人文、社科、理工等各个领域，可以很好地反映模型是否保持了原有的知识储备。

测试结果再次出人意料。与传统预期相反，采用重复学习策略的模型在知识保留方面的表现反而更好。具体来说，虽然两种训练策略都会导致一些通用知识的遗忘（这在专业化训练中是正常现象），但重复学习策略造成的知识损失明显更少。

这个发现可以用"深度学习"的概念来理解。当学生深入掌握一个特定领域的知识时，他们不仅在该领域变得更强，还会发展出更好的学习策略和思维模式，这些能力可以迁移到其他领域。同样，AI模型通过反复练习推理过程，不仅提高了推理能力，还形成了更稳固的内部知识结构，从而减少了其他知识的遗忘。

研究人员通过比较不同训练策略的"性能-遗忘"权衡发现，重复学习策略在这个权衡中占据了明显优势。它既能显著提升推理性能，又能更好地保持原有知识，这使得它成为一个"严格更优"的选择。这就像找到了一种既能让学生数学成绩大幅提升，又不会影响其他科目表现的神奇学习方法。

更深层地看，这种现象可能揭示了AI模型内部知识组织的特殊机制。重复学习可能帮助模型建立了更加稳定和系统化的内部表示，使得新获得的推理能力与原有知识形成了更好的整合，而不是简单的覆盖关系。这种整合机制的具体原理仍然是个谜，但它的存在为AI训练策略提供了重要的指导意义。

五、理论挑战：记忆与泛化的悖论

这项研究最深层的价值在于它提出了一个根本性的理论挑战：为什么在推理训练中，完全记住训练内容反而能提升在全新问题上的表现？这个现象违背了传统机器学习理论的基本假设，创造了一个"记忆与泛化"的悖论。

在经典的机器学习理论中，记忆和泛化通常被视为一对矛盾。模型如果过度记忆训练数据，就会在新数据上表现不佳；反之，如果要在新数据上表现良好，就必须避免过度拟合训练数据。这种理论框架在图像识别、自然语言处理等许多任务中都得到了验证。

然而，在长链推理任务中，这个理论框架似乎失效了。研究显示，当AI模型达到近乎完美的训练数据记忆时，它们在完全未见过的推理问题上的表现反而达到了峰值。这就像一个学生把课本内容倒背如流，不仅没有变成"死记硬背"的机器，反而在解决新问题时表现得更加灵活和创新。

研究团队提出了几种可能的解释机制。第一种解释是"能力激活假说"：AI模型在预训练阶段已经获得了潜在的推理能力，而专门的推理训练只是在激活和强化这些已有能力。重复学习可能帮助模型更好地建立起访问这些内在能力的"神经通路"，从而在面对新问题时能够更有效地调用相关能力。

第二种解释是"结构内化假说"：通过反复学习相同的推理案例，模型不是在记忆具体的内容，而是在内化推理的一般结构和模式。就像学生通过反复练习特定类型的数学题，最终掌握的不是题目的具体数字，而是解题的思路和方法。这种结构化知识比表面的内容记忆更容易迁移到新问题上。

第三种解释涉及"置信度校准"：重复学习可能帮助模型形成了更准确的自我评估能力。模型通过反复练习，不仅学会了如何推理，还学会了何时应该相信自己的推理结果，何时应该保持谨慎。这种元认知能力使得模型在处理新问题时能够做出更可靠的判断。

研究还观察到一个有趣的现象：模型在达到记忆饱和后，其输出变得更加"确定"——预测的概率分布更加集中，熵值显著降低。这种高置信度通常被认为是过拟合的标志，但在这里却伴随着更好的泛化性能。这暗示着在推理任务中，"自信"可能确实是一种优势，前提是这种自信建立在充分练习的基础上。

这个理论挑战的重要性不仅在于它推翻了现有认知，更在于它为整个AI研究领域开辟了新的探索方向。理解重复学习为何有效，可能会揭示AI推理能力的本质机制，进而指导我们开发更加高效的训练方法和更加强大的推理模型。

六、实践启示：重新定义高效AI训练

这项研究的实用价值体现在它为AI训练实践提供了具体可操作的指导原则。在资源有限的现实条件下，这些发现可以帮助研究者和工程师做出更明智的训练策略选择。

首先，研究确立了一个简单而有效的训练停止准则：监控模型在训练数据上的记忆准确度。当这个准确度接近100%时，继续增加训练轮次的边际收益会显著下降。这为训练过程提供了清晰的指导信号，避免了盲目的过度训练或过早停止。

其次，研究明确了在训练资源分配中的优先级：在相同的计算预算下，应该优先考虑增加训练轮次而不是扩大数据集规模。这个原则在实践中具有重要意义，因为生成高质量的推理示范数据往往成本高昂，而增加训练轮次的成本相对较低。

研究还为不同场景提供了具体的策略建议。当使用强大的老师模型进行知识蒸馏时，可以在重复学习的基础上适当增加数据规模；当老师模型能力有限时，应该重点关注重复轮次的优化，避免数据规模的盲目扩张。这种差异化策略可以帮助不同条件下的研究团队最大化训练效果。

更重要的是，这些发现改变了我们对"错误数据"的看法。传统上，包含错误答案的训练样本会被严格过滤掉，但研究显示这些"负面案例"同样具有训练价值。这意味着在数据收集和处理过程中，可以采用更加包容的策略，从而降低数据准备的成本和复杂度。

从更广泛的角度看，这项研究提醒我们重新审视AI训练中的"常识"。许多被广泛接受的训练原则可能在特定任务类型中并不适用。对于推理密集型任务，深度比广度更重要；质量比数量更关键；重复比新颖更有效。这些看似反常的原则实际上可能更接近人类学习复杂技能的本质规律。

七、未来展望：从经验发现到理论突破

尽管这项研究在实践层面提供了清晰的指导，但它同时也暴露了我们对AI学习机制理解的不足。为什么重复学习如此有效？这个问题的答案可能藏在AI模型内部复杂的信息处理机制中，需要更深入的理论研究才能揭示。

研究团队坦承，他们目前只是观察到了现象，但尚未完全理解其背后的原理。这种诚实的态度反映了科学研究的真实面貌——往往是先有经验发现，然后再构建理论解释。这个"重复学习优势"现象为理论研究提出了明确的挑战：我们需要发展新的理论框架来解释记忆与泛化之间的这种反直觉关系。

从技术发展的角度看，这项研究可能催生一系列后续创新。研究者们可能会开发更精细的重复学习策略，比如动态调整重复模式、智能选择重复内容、或者将重复学习与其他训练技术结合。这些进展有望进一步提升AI推理能力的训练效率。

更值得期待的是，这种训练理念可能会扩展到其他AI能力的培养中。代码生成、创意写作、科学推理等需要复杂思维过程的任务，是否也能从类似的重复学习策略中受益？这些问题的答案将决定这项研究影响的最终范围。

说到底，这项研究最大的价值可能不在于它提供了什么具体的训练技巧，而在于它提醒我们保持开放的心态。在AI快速发展的时代，许多看似确定的原则可能随时被新的发现颠覆。保持好奇心，勇于挑战常规，也许是在这个领域取得突破的最重要品质。

这个"炒冷饭"比"吃新鲜"更有效的发现，既是对传统智慧的挑战，也是对未来探索的邀请。它告诉我们，在通向真正智能的道路上，我们还有太多未知等待发现。而每一个看似简单的观察，都可能成为打开新世界大门的钥匙。

Q&A

Q1：什么是有监督微调中的重复学习策略？

A：重复学习策略是指让AI模型在相同的训练样本上反复学习多轮，而不是在大量不同样本上各学习一次。研究发现，在相同训练时间下，让模型在400个样本上训练128轮，比在51200个不同样本上只训练1轮的效果好12-26个百分点。

Q2：为什么AI完全记住训练内容后推理能力反而更强？

A：这是一个尚未完全解释清楚的现象。研究人员认为可能的原因包括：重复学习帮助模型内化了推理的一般结构和模式，而不是简单记忆具体内容；或者激活了模型在预训练中已获得的潜在推理能力；还可能提高了模型的自我评估和置信度校准能力。

Q3：重复学习策略会不会让AI忘记其他能力？

A：研究发现情况恰恰相反。通过对57个学科的综合知识测试，重复学习策略造成的知识损失反而比传统数据扩展策略更少。这可能是因为深度的推理训练帮助模型建立了更稳固的内部知识结构，从而更好地保持了原有能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.