网易首页 > 网易号 > 正文 申请入驻

NVIDIA团队:如何训练多任务AI模型?

0
分享至

人工智能领域又传来重磅消息。NVIDIA公司的研究团队在2025年6月发布了一项突破性研究成果,详细揭示了如何训练出既擅长数学推理又精通代码编写的AI模型。这项由刘子涵、杨卓林等人领导的研究发表于2025年6月16日的arXiv预印本平台,论文编号为arXiv:2506.13284v1,有兴趣的读者可以通过https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B获取完整模型和数据。

在这个人工智能日新月异的时代,让AI模型既能解决复杂的数学问题又能编写高质量代码,就像培养一个既是数学天才又是编程高手的学生一样困难。传统上,研究者们要么专注于让AI学会数学推理,要么专门训练编程能力,很少有人能够找到让这两种能力完美融合的训练方法。

NVIDIA的研究团队发现了一个令人惊喜的现象:当他们专门用数学题训练AI模型时,这个模型的编程能力竟然也得到了显著提升。这就好比一个学生专心练习数学题,结果发现自己的逻辑思维能力增强了,编程水平也跟着提高了。更有趣的是,他们还发现了监督学习和强化学习之间的奇妙配合关系,就像找到了教学和实践之间的完美平衡点。

这项研究的核心在于探索两种训练方法的协同效应。第一种叫做监督微调,就像传统的课堂教学,老师给学生展示正确答案,学生跟着学习模仿。第二种叫做强化学习,更像是让学生自己做题练习,做对了有奖励,做错了有惩罚,通过不断试错来提升能力。

研究团队首先深入研究了监督微调的数据扩展策略。他们发现,增加训练题目的数量和为每道题提供多种解答方法都能显著提升模型性能,但增加题目数量的效果更为明显。这就像学习数学时,做更多不同类型的题目比反复看同一道题的多种解法更有效。具体来说,他们构建了七个不同规模的训练数据集,从最小的3.6万个样本逐步扩展到最大的220万个样本,每次扩展都能观察到模型能力的稳步提升。

在训练周期方面,研究者们观察到一个有趣现象:模型的表现从第一轮训练到第五轮训练持续改善,在第五到第六轮之间才开始趋于稳定。这意味着适度的"过拟合"实际上有助于提升测试准确率,特别是在生成长篇推理过程时。这种现象可能是因为自回归模型中的暴露偏差导致的,简单来说就是模型需要充分练习才能在实际应用中表现出色。

接下来,研究团队探索了强化学习训练的精妙之处。他们从不同强度的监督模型开始进行强化学习,发现了一个重要规律:尽管初始模型的性能差距可能很大,但经过大规模强化学习训练后,这些差距会显著缩小。这就像不同起点的学生,通过持续的练习和改进,最终都能达到相近的水平。

温度参数的选择在强化学习中扮演着关键角色。研究团队发现,训练时的采样温度需要精心调节,既不能太低也不能太高。温度太低会导致模型过度保守,缺乏探索性;温度太高则会导致过度随机,学习效率低下。他们提出了一个实用的经验法则:将采样温度设置为使温度调整后的熵保持在0.3左右,这样可以在探索和利用之间取得良好平衡。

强化学习的训练过程采用了阶段性策略,就像学习编程时先学基础语法,再学复杂算法一样。第一阶段使用8K标记长度限制,主要起到热身作用。虽然这个阶段初期可能会导致性能下降,但它帮助模型学会将冗长的推理过程压缩为更简洁的形式,为后续阶段的学习打下基础。第二和第三阶段分别将长度限制扩展到16K和24K,模型的推理能力在这些阶段得到显著提升。

在处理超长输出时,研究团队发现了一个有趣的权衡。当响应长度较短(如8K或16K标记)时,过滤掉那些没有在规定长度内给出最终答案的样本是有益的。但随着长度限制增加到24K和32K,这种过滤策略的优势逐渐减弱,甚至可能产生负面影响。这提醒我们,不同阶段需要采用不同的训练策略。

最令人惊喜的发现是跨领域的泛化能力。当研究团队仅使用数学题目进行强化学习训练时,模型的编程能力也得到了显著提升。这种现象在各种不同强度的初始模型上都得到了验证,说明数学推理和编程思维之间存在深层的联系。这就像锻炼身体的核心肌群会同时改善各种运动表现一样,强化数学推理能力也会提升整体的逻辑思维水平。

在大规模评估中,研究团队使用了多个权威基准测试。对于数学任务,他们选择了AIME2024、AIME2025、Math500等竞赛级别的测试集。对于编程任务,则采用了EvalPlus和LiveCodeBench等业界标准。所有测试都使用了严格的评估协议,包括多次采样和平均结果,确保评估的可靠性。

最终的AceReason-Nemotron-1.1 7B模型在各项测试中都取得了优异成绩。在AIME2024上达到72.6%的准确率,在AIME2025上达到64.8%,在LiveCodeBench V5和V6上分别达到57.2%和52.1%。这些成绩不仅超越了前代模型,也在同等规模的模型中达到了最高水平。

研究团队还深入分析了pass@K指标,即给模型K次机会看能否答对题目。结果显示,即使在K值较大的情况下,强化学习训练的模型仍然比仅经过监督训练的模型表现更好。这说明强化学习不仅提升了模型的最佳表现,也提高了整体的成功概率。

更进一步的分析显示,强化学习主要通过解决困难问题来提升模型性能。那些初始模型准确率低于20%的难题,经过强化学习后有了显著改善。这就像一个学生通过刻苦练习,最终攻克了那些曾经束手无策的难题。

整个训练过程的设计充分体现了教育学的智慧。从基础的监督学习开始,逐步过渡到更具挑战性的强化学习,每个阶段都有明确的目标和循序渐进的难度提升。这种方法论不仅适用于AI模型训练,也为人类学习提供了有益的启示。

说到底,这项研究最大的价值在于揭示了监督学习和强化学习之间的协同关系。它告诉我们,培养AI的推理能力不是简单的知识灌输,而需要在模仿学习和自主探索之间找到平衡。正如培养人才需要既有扎实的基础教育,又要有充分的实践机会一样,AI模型的训练也需要这种有机结合。

这项研究的意义远不止于创造了一个新的AI模型。它为整个AI训练领域提供了新的思路和方法论,证明了跨领域能力提升的可能性,也为未来开发更强大、更通用的AI系统指明了方向。随着这些训练技术的不断完善和普及,我们可以期待看到更多既聪明又实用的AI助手出现在我们的日常生活中。

对于普通人来说,这意味着未来的AI工具将更加智能和可靠,无论是帮助学生解决数学难题,还是协助程序员编写代码,都将有更出色的表现。而对于研究者和开发者来说,这项工作提供了宝贵的经验和指导,让他们能够更有效地训练和改进AI模型。

NVIDIA团队不仅在论文中详细分享了他们的发现,还开源了模型和数据,让全世界的研究者都能受益于这些成果。这种开放合作的精神,正是推动AI技术不断进步的重要动力。

Q&A

Q1:AceReason-Nemotron 1.1是什么?它有什么特别之处? A:AceReason-Nemotron 1.1是NVIDIA开发的一个7B参数的AI模型,它的特别之处在于同时擅长数学推理和代码编写。更神奇的是,研究发现仅用数学题训练这个模型,它的编程能力也会显著提升,就像练习数学提升了整体逻辑思维能力一样。

Q2:监督学习和强化学习会不会互相冲突? A:不会冲突,反而相互促进。监督学习就像课堂教学,让AI学会基础知识;强化学习像实践练习,让AI通过试错提升能力。研究发现即使初始模型差距很大,经过强化学习训练后,性能差距会显著缩小,说明这两种方法配合效果很好。

Q3:普通人能用这个模型做什么?有什么实际价值? A:这个模型可以帮助解决复杂的数学问题和编写代码,对学生、教师、程序员都很有用。更重要的是,这项研究的训练方法为开发更智能的AI助手提供了新思路,未来我们可能会看到更多既聪明又实用的AI工具出现在日常生活中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
车市大局已定:不出意外的话,零跑可能是下一个比亚迪

车市大局已定:不出意外的话,零跑可能是下一个比亚迪

音乐时光的娱乐
2026-07-02 00:21:14
广西一3岁男孩暴雨全身淋透被1亿人围观,宝妈说比自己脾气大

广西一3岁男孩暴雨全身淋透被1亿人围观,宝妈说比自己脾气大

九方鱼论
2026-07-01 21:39:43
沃克:现在看英格兰队比赛很煎熬,在场上踢的话就没空想太多

沃克:现在看英格兰队比赛很煎熬,在场上踢的话就没空想太多

懂球帝
2026-07-02 11:16:16
A股:今天,7月2日,释放了两个关键信号!股市或将这样变化!

A股:今天,7月2日,释放了两个关键信号!股市或将这样变化!

明心
2026-07-02 11:33:53
45℃极端热浪席卷欧洲!马斯克在线吃瓜嘲讽:欧洲人用不起空调

45℃极端热浪席卷欧洲!马斯克在线吃瓜嘲讽:欧洲人用不起空调

大卫聊科技
2026-06-30 12:57:50
通知所有国企退休人员:档案清查全面铺开,违规一律追溯问责

通知所有国企退休人员:档案清查全面铺开,违规一律追溯问责

今日搞笑分享
2026-07-01 11:41:44
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
广东省总工会原副主席杜玲被查

广东省总工会原副主席杜玲被查

新京报
2026-07-02 09:30:25
俄罗斯大规模报复来了!出动10架战略轰炸机!但却暴露致命问题

俄罗斯大规模报复来了!出动10架战略轰炸机!但却暴露致命问题

阿讯说天下
2026-07-02 11:58:42
伊最高领袖没料到,老哈梅灵车还没到圣城,以色列先准备斩首行动

伊最高领袖没料到,老哈梅灵车还没到圣城,以色列先准备斩首行动

阿芒娱乐说
2026-07-02 11:25:45
4小时内连胜!孙颖莎一板将大勒打飞太猛 三局仅让德乒巨头拿11分

4小时内连胜!孙颖莎一板将大勒打飞太猛 三局仅让德乒巨头拿11分

颜小白的篮球梦
2026-07-02 10:44:37
死亡人数破千!欧洲正式摊牌,宁可社会崩溃也不让中国办成一件事

死亡人数破千!欧洲正式摊牌,宁可社会崩溃也不让中国办成一件事

标体
2026-07-01 13:47:51
法国美女在中国面馆吃了七天,回国后,她再也吃不下任何一碗面

法国美女在中国面馆吃了七天,回国后,她再也吃不下任何一碗面

千秋文化
2026-06-24 19:57:30
在新加坡收到全中文菜单是什么体验?这名食客的反应笑翻了

在新加坡收到全中文菜单是什么体验?这名食客的反应笑翻了

新加坡眼
2026-07-01 21:58:26
终于,Claude Code 封号的原因被曝光了!竟然针对中国用户,植入隐形代码?!

终于,Claude Code 封号的原因被曝光了!竟然针对中国用户,植入隐形代码?!

程序员鱼皮
2026-07-01 14:22:53
扎心了!“我生君未富”,一博主举出大厂大量现实案例,评论沸腾

扎心了!“我生君未富”,一博主举出大厂大量现实案例,评论沸腾

火山詩话
2026-06-30 05:52:05
陈妍希分享船上游戏!AB和吕子乔的恩怨!

陈妍希分享船上游戏!AB和吕子乔的恩怨!

八卦疯叔
2026-07-02 10:46:44
广州东站:当事旅客已被带走调查

广州东站:当事旅客已被带走调查

澎湃新闻
2026-07-01 22:04:03
离谱!湖人梭哈组三巨头吃掉4.75亿薪资,未来7年已无首轮可交易

离谱!湖人梭哈组三巨头吃掉4.75亿薪资,未来7年已无首轮可交易

新杀猪的秀才
2026-07-02 00:02:14
40岁超模晒透视装露点照遭围攻,她怒怼:胸部切过3次还给俩娃喂过奶,这算什么性感

40岁超模晒透视装露点照遭围攻,她怒怼:胸部切过3次还给俩娃喂过奶,这算什么性感

赴一场山海啊
2026-06-30 00:55:22
2026-07-02 13:11:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19781文章数 49712关注度
往期回顾 全部

科技要闻

奥特曼的新算盘:给白宫5%股权 换政策绿灯

头条要闻

13名村民阻拦开采山体涉寻衅滋事:4人获刑 9人获国赔

头条要闻

13名村民阻拦开采山体涉寻衅滋事:4人获刑 9人获国赔

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

比亚迪26款海鸥,不到7万配激光雷达,官方还包赔?

态度原创

健康
数码
本地
时尚
公开课

这4类消化病患者 吃粘食管住嘴

数码要闻

“内存厂战略合作伙伴”?游戏《CINDER CITY》最低需求32GB RAM

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

月入3万,时代红利砸向文科生

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版