NVIDIA团队：如何训练多任务AI模型？|算法|编程|数学|推理|英伟达|ai模型|nvidia

NVIDIA团队：如何训练多任务AI模型？

2025-06-23 21:40:09　来源: 至顶科技

北京举报

分享至

人工智能领域又传来重磅消息。NVIDIA公司的研究团队在2025年6月发布了一项突破性研究成果，详细揭示了如何训练出既擅长数学推理又精通代码编写的AI模型。这项由刘子涵、杨卓林等人领导的研究发表于2025年6月16日的arXiv预印本平台，论文编号为arXiv:2506.13284v1，有兴趣的读者可以通过https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B获取完整模型和数据。

在这个人工智能日新月异的时代，让AI模型既能解决复杂的数学问题又能编写高质量代码，就像培养一个既是数学天才又是编程高手的学生一样困难。传统上，研究者们要么专注于让AI学会数学推理，要么专门训练编程能力，很少有人能够找到让这两种能力完美融合的训练方法。

NVIDIA的研究团队发现了一个令人惊喜的现象：当他们专门用数学题训练AI模型时，这个模型的编程能力竟然也得到了显著提升。这就好比一个学生专心练习数学题，结果发现自己的逻辑思维能力增强了，编程水平也跟着提高了。更有趣的是，他们还发现了监督学习和强化学习之间的奇妙配合关系，就像找到了教学和实践之间的完美平衡点。

这项研究的核心在于探索两种训练方法的协同效应。第一种叫做监督微调，就像传统的课堂教学，老师给学生展示正确答案，学生跟着学习模仿。第二种叫做强化学习，更像是让学生自己做题练习，做对了有奖励，做错了有惩罚，通过不断试错来提升能力。

研究团队首先深入研究了监督微调的数据扩展策略。他们发现，增加训练题目的数量和为每道题提供多种解答方法都能显著提升模型性能，但增加题目数量的效果更为明显。这就像学习数学时，做更多不同类型的题目比反复看同一道题的多种解法更有效。具体来说，他们构建了七个不同规模的训练数据集，从最小的3.6万个样本逐步扩展到最大的220万个样本，每次扩展都能观察到模型能力的稳步提升。

在训练周期方面，研究者们观察到一个有趣现象：模型的表现从第一轮训练到第五轮训练持续改善，在第五到第六轮之间才开始趋于稳定。这意味着适度的"过拟合"实际上有助于提升测试准确率，特别是在生成长篇推理过程时。这种现象可能是因为自回归模型中的暴露偏差导致的，简单来说就是模型需要充分练习才能在实际应用中表现出色。

接下来，研究团队探索了强化学习训练的精妙之处。他们从不同强度的监督模型开始进行强化学习，发现了一个重要规律：尽管初始模型的性能差距可能很大，但经过大规模强化学习训练后，这些差距会显著缩小。这就像不同起点的学生，通过持续的练习和改进，最终都能达到相近的水平。

温度参数的选择在强化学习中扮演着关键角色。研究团队发现，训练时的采样温度需要精心调节，既不能太低也不能太高。温度太低会导致模型过度保守，缺乏探索性；温度太高则会导致过度随机，学习效率低下。他们提出了一个实用的经验法则：将采样温度设置为使温度调整后的熵保持在0.3左右，这样可以在探索和利用之间取得良好平衡。

强化学习的训练过程采用了阶段性策略，就像学习编程时先学基础语法，再学复杂算法一样。第一阶段使用8K标记长度限制，主要起到热身作用。虽然这个阶段初期可能会导致性能下降，但它帮助模型学会将冗长的推理过程压缩为更简洁的形式，为后续阶段的学习打下基础。第二和第三阶段分别将长度限制扩展到16K和24K，模型的推理能力在这些阶段得到显著提升。

在处理超长输出时，研究团队发现了一个有趣的权衡。当响应长度较短（如8K或16K标记）时，过滤掉那些没有在规定长度内给出最终答案的样本是有益的。但随着长度限制增加到24K和32K，这种过滤策略的优势逐渐减弱，甚至可能产生负面影响。这提醒我们，不同阶段需要采用不同的训练策略。

最令人惊喜的发现是跨领域的泛化能力。当研究团队仅使用数学题目进行强化学习训练时，模型的编程能力也得到了显著提升。这种现象在各种不同强度的初始模型上都得到了验证，说明数学推理和编程思维之间存在深层的联系。这就像锻炼身体的核心肌群会同时改善各种运动表现一样，强化数学推理能力也会提升整体的逻辑思维水平。

在大规模评估中，研究团队使用了多个权威基准测试。对于数学任务，他们选择了AIME2024、AIME2025、Math500等竞赛级别的测试集。对于编程任务，则采用了EvalPlus和LiveCodeBench等业界标准。所有测试都使用了严格的评估协议，包括多次采样和平均结果，确保评估的可靠性。

最终的AceReason-Nemotron-1.1 7B模型在各项测试中都取得了优异成绩。在AIME2024上达到72.6%的准确率，在AIME2025上达到64.8%，在LiveCodeBench V5和V6上分别达到57.2%和52.1%。这些成绩不仅超越了前代模型，也在同等规模的模型中达到了最高水平。

研究团队还深入分析了pass@K指标，即给模型K次机会看能否答对题目。结果显示，即使在K值较大的情况下，强化学习训练的模型仍然比仅经过监督训练的模型表现更好。这说明强化学习不仅提升了模型的最佳表现，也提高了整体的成功概率。

更进一步的分析显示，强化学习主要通过解决困难问题来提升模型性能。那些初始模型准确率低于20%的难题，经过强化学习后有了显著改善。这就像一个学生通过刻苦练习，最终攻克了那些曾经束手无策的难题。

整个训练过程的设计充分体现了教育学的智慧。从基础的监督学习开始，逐步过渡到更具挑战性的强化学习，每个阶段都有明确的目标和循序渐进的难度提升。这种方法论不仅适用于AI模型训练，也为人类学习提供了有益的启示。

说到底，这项研究最大的价值在于揭示了监督学习和强化学习之间的协同关系。它告诉我们，培养AI的推理能力不是简单的知识灌输，而需要在模仿学习和自主探索之间找到平衡。正如培养人才需要既有扎实的基础教育，又要有充分的实践机会一样，AI模型的训练也需要这种有机结合。

这项研究的意义远不止于创造了一个新的AI模型。它为整个AI训练领域提供了新的思路和方法论，证明了跨领域能力提升的可能性，也为未来开发更强大、更通用的AI系统指明了方向。随着这些训练技术的不断完善和普及，我们可以期待看到更多既聪明又实用的AI助手出现在我们的日常生活中。

对于普通人来说，这意味着未来的AI工具将更加智能和可靠，无论是帮助学生解决数学难题，还是协助程序员编写代码，都将有更出色的表现。而对于研究者和开发者来说，这项工作提供了宝贵的经验和指导，让他们能够更有效地训练和改进AI模型。

NVIDIA团队不仅在论文中详细分享了他们的发现，还开源了模型和数据，让全世界的研究者都能受益于这些成果。这种开放合作的精神，正是推动AI技术不断进步的重要动力。

Q&A

Q1：AceReason-Nemotron 1.1是什么？它有什么特别之处？ A：AceReason-Nemotron 1.1是NVIDIA开发的一个7B参数的AI模型，它的特别之处在于同时擅长数学推理和代码编写。更神奇的是，研究发现仅用数学题训练这个模型，它的编程能力也会显著提升，就像练习数学提升了整体逻辑思维能力一样。

Q2：监督学习和强化学习会不会互相冲突？ A：不会冲突，反而相互促进。监督学习就像课堂教学，让AI学会基础知识；强化学习像实践练习，让AI通过试错提升能力。研究发现即使初始模型差距很大，经过强化学习训练后，性能差距会显著缩小，说明这两种方法配合效果很好。

Q3：普通人能用这个模型做什么？有什么实际价值？ A：这个模型可以帮助解决复杂的数学问题和编写代码，对学生、教师、程序员都很有用。更重要的是，这项研究的训练方法为开发更智能的AI助手提供了新思路，未来我们可能会看到更多既聪明又实用的AI工具出现在日常生活中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.