网易首页 > 网易号 > 正文 申请入驻

三星发力大模型!三星研究院联合北大发布 M2RL,系统揭秘多领域RL训练机制

0
分享至


三星研究院开展了M2RL研究项目,对多域强化学习进行了系统性的研究和分析。

大模型训练需要同时兼顾多个领域能力,包括Agentic 能力、数学推理、代码生成等。如何训练一个能够在多个领域同时达到专家水平的通用模型,已成为当前研究中的一项关键挑战。尤其是在强化学习(RL)阶段,如何通过合理的训练机制与超参数配置,缓解多领域训练中的能力冲突与兼容问题,对于模型最终性能的提升至关重要。为此,三星研究院联合北京大学,发布技术报告R2Mixer(To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models),系统分析了多领域RL的训练机理,通过系统级调优,显著提升了多领域RL后的模型效果。

值得关注的是,结合去年10月份的相关报道,三星已向英伟达采购5万张 GPU用于构建大规模AI 基础设施。此举或许标志着三星在大模型领域正大幅加大投入,意在打造自主可控的基础模型体系,为未来在手机、智能终端、自动化工厂等场景中部署通用 AI 能力提供底层支撑。


文章地址:https://arxiv.org/abs/2602.12566

项目主页:https://github.com/Mosi-AI/M2RL

01


关键痛点

在人工智能的浪潮中,LLM正以前所未有的速度席卷Agent、数学推理、代码生成、科学问题求解等关键领域,一场关于"如何打造全能型AI专家"的技术竞赛已然拉开帷幕!目前学界存在两种主流的RL后训练范式:

▪ 混合多任务范式:同时学习来自不同领域的数据和奖励;

▪ 专家融合范式:分别训练各领域专家,再通过权重合并或蒸馏技术融合。

两大路线各有优劣,DeepSeek-R1、Qwen3、GLM-4.5、MiMo-V2等明星模型亦选择不同路径,但学界对这两种范式的系统性对比和内在机制的分析仍然缺乏。面对构建通用多领域专家模型的核心痛点:

1)训练效率与性能的两难:不同领域的强化学习是否会产生梯度干扰,导致整体性能下降?混合多任务训练的计算成本是否低于分别训练后合并? 2) 领域知识的迁移与干扰:不同领域的强化学习是否存在知识迁移效应?还是会产生互相干扰?这种关系在不同类型的任务之间是否有差异? 3) 模型合并的内在机制:模型合并后的性能增益从何而来?不同合并方法之间有何优劣?如何选择最优的合并策略? 4) 自我评判能力的演化:RLVR训练是否能够使模型获得自我评判能力?这种能力在不同训练范式下如何变化?

研究团队基于开源数据集进行完整的SFT+RL后训练过程实现可控的实验比较,进而深入分析其内在机制。


02


M2RL:系统性研究与实验设计

三星研究院开展了M2RL研究项目 (Mixed multi-task training or separate training followed by modelMerging forReinforcementLearning),对多域强化学习进行了系统性的研究和分析。研究团队基于Nemotron 3 Nano技术报告中开源的SFT或RL数据进行实验,选择了五个常见的RLVR域:数学、编程、科学、指令跟随以及Agent,初始模型选用Qwen3-4B-Base,RL算法选用GRPO。

1)对于有监督微调(SFT),研究团队遵循Nemotron 3 Nano技术报告中的数据配比将其开源数据进行合理组合。其中,对于数量较多的开源数据集进行随机采样,对于数量较少的开源数据集则重复使用(最多10次),最终获得~14M的数据用于有监督微调,详细配比如下:


2)对于强化学习训练,研究团队同样使用Nemotron 3 Nano开源的RL训练数据,其数据配比及来源总结如下:


3)对于模型融合方法,研究团队考虑了广泛使用的weight merging (对模型权重加权平均)和multi-teacher on-policy-distillation技术。其中,weight merging包括average merging, task arithmetic merging, Ties-merging以及SCE merging,同时也考察了这些方法与DARE的组合使用效果。对于MT-OPD,他们使用来自5个域的专家模型作为teacher蒸馏有监督微调后的模型,设计相应的teacher路由策略。

所有实验在相同型号显卡上运行,详细的训练设置及GPU Hours如下:


03


M2RL:评测结果及机制分析

1.评测结果

研究团队在跨越5个域的9个benchmark上对模型进行评估:数学(AIME’24和AIME’25)、代码(LiveCodeBench v5和v6)、科学(HLE和GPQA-Diamond)、指令跟随(IFEval和IFBench )以及Agent(BFCL v3):


其中model merging报告的是Ties-merging的结果,其表现最佳;详细对比如下:


从上述结果可以看出:

[1]就5个独立RL模型而言,math, coding,instruction following和agent域的RL模型都在对应域的benchmark上获得了最佳表现;有趣的是math域的RL模型比science域的RL模型在science benchmark上获得了更好的表现,可能这两个science benchmark需要更多的逻辑推理和数学计算而非科学知识。

[2]混合的多任务RL可以用约63.7%的GPU Hours获得与单独RL再融合相当的效果;不同域之间的干扰并不明显,甚至有增益。例如,三个推理相关的域(math, coding和science)的RL就互有增益,Instruction Following域也有助于这三个域的评估。有趣的是,所有其他域都对agent域没有增益,可能单轮的逻辑推理对于多轮的工具调用和环境交互价值有限,但仍然未观察到互相干扰现象。

[3]weight merging这类training-free的融合方法效果意外的很好,不仅继承了原始模型的绝大部分性能,甚至在AIME’24, AIME’25, HLE, IFEval和BFCL v3数据集比对应专家模型还要强,再次印证了不同域的互相增益效果。此外,weight merging无需额外的GPU Hours即可达到稍微优于MT-OPD的效果。

除了最终表现,研究团队还给出了不同域RL训练过程中模型在不同域的benchmark上的表现。具体的,选择AIME’24, LiveCodeBench v5, GPQA-Diamond, IFEval和BFCL v3分别作为math, coding, science, instruction following和agent域的代表,结果如下:


可以看到三个推理域(math, coding和science)的RL过程可以稳定提升彼此的表现。此外,instruction following和agent域的任务只有对应域的RL能稳步提升表现,推理域RL对其并无增益。反之,instruction following和agent域的RL却可以或多或少的提升推理域的能力表现,说明推理为基本能力,各种域的学习都需要。

研究团队仅用开源数据,从Qwen3-4B-Base开始训练便获得了和官方的Qwen3-4B可比的结果,证明其工程实现的有效性:

除了上述评测结果之外,研究团队还从信息约束模型预测行为自我验证等角度深入分析多域RL训练的工作机理。更多分析内容详见论文。

04


总结与展望

三星研究院针对大模型后训练范式进行了系统的对比。研究通过严谨的受控实验,深入剖析了“混合多任务RL”与“专家模型融合”在多域能力构建中的性能边界。针对梯度干扰、领域知识迁移、模型合并机制及自我评判能力演化等行业核心痛点,该研究不仅揭示了多域强化学习的内在作用机理,更在训练效率与性能平衡上提供了关键保障,有效支撑了千亿、万亿等更大参数模型的RL训练。

05


作者信息

本文共有3位共同一作,其中王好庆、龙翔为三星大模型高级研究员,李子恒为北京大学博士生,研究方向为大模型强化学习。

本文通讯作者为唐业辉,目前担任三星大模型算法负责人、高级技术总监。他博士毕业于北京大学,已发表AI顶会论文50余篇,Google学术引用1万+,并担任NeurIPS、ICML等会议的领域主席。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山姆“断货王”冲上热搜!不少人吃错了!网友慌了:我会有事吗...

山姆“断货王”冲上热搜!不少人吃错了!网友慌了:我会有事吗...

广东最生活v
2026-03-17 11:36:48
73岁赵宪庚院士被除名:官方沉默,大量内幕披露,一细节引猜疑

73岁赵宪庚院士被除名:官方沉默,大量内幕披露,一细节引猜疑

博士观察
2026-03-18 19:48:40
女足亚洲杯太残酷了,随着日本4-1进决赛,中国等3大劲旅已出局

女足亚洲杯太残酷了,随着日本4-1进决赛,中国等3大劲旅已出局

侧身凌空斩
2026-03-18 19:03:09
布伦特原油失守97美元/桶

布伦特原油失守97美元/桶

每日经济新闻
2026-03-18 13:44:11
外网女主播疑似上厕所忘了关麦 直播间瞬间沸腾

外网女主播疑似上厕所忘了关麦 直播间瞬间沸腾

草莓解说体育
2026-03-18 20:29:20
拉里贾尼葬礼,现场视频公布!伊朗紧急警告:中东三国石油设施成为合法打击目标

拉里贾尼葬礼,现场视频公布!伊朗紧急警告:中东三国石油设施成为合法打击目标

新民晚报
2026-03-18 22:01:49
时速约7.2万公里!美媒:俄亥俄州上空划过重达7吨流星,解体时发出巨响

时速约7.2万公里!美媒:俄亥俄州上空划过重达7吨流星,解体时发出巨响

环球网资讯
2026-03-18 19:07:06
霍尔木兹梗阻,哪个省最受伤

霍尔木兹梗阻,哪个省最受伤

南风窗
2026-03-18 14:21:14
国家医保局第7号令:4月1日全国统一施行,看病报销迎来新规矩

国家医保局第7号令:4月1日全国统一施行,看病报销迎来新规矩

夜深爱杂谈
2026-03-17 22:16:29
腾讯音乐大跌超20%,将停止披露季度用户数

腾讯音乐大跌超20%,将停止披露季度用户数

第一财经资讯
2026-03-18 14:52:07
以防长称“所有伊朗人都是打击目标”

以防长称“所有伊朗人都是打击目标”

财联社
2026-03-18 18:54:09
男子称一箱12瓶纯净水每瓶都有针眼 监管部门介入调查

男子称一箱12瓶纯净水每瓶都有针眼 监管部门介入调查

大象新闻
2026-03-18 10:40:17
要对量化重拳出击了?证监会最新发声,周四股市或将迎来大聚变!

要对量化重拳出击了?证监会最新发声,周四股市或将迎来大聚变!

青青子衿
2026-03-18 22:20:35
伊朗战争18日最新战报:斩首最有实权的拉里贾尼;伊朗如何报复?

伊朗战争18日最新战报:斩首最有实权的拉里贾尼;伊朗如何报复?

黔有虎
2026-03-18 12:42:40
刚刚,国际油价跳水大跌!下周,国内油价或重回“9元时代”,加满一箱可能多花100元

刚刚,国际油价跳水大跌!下周,国内油价或重回“9元时代”,加满一箱可能多花100元

台州交通广播
2026-03-18 13:12:26
长津湖冻死冻伤3万人,多年后宋时轮才说出真相:不只是缺棉衣那么简单

长津湖冻死冻伤3万人,多年后宋时轮才说出真相:不只是缺棉衣那么简单

寄史言志
2026-03-17 23:25:17
为美国节省了1000万美元!拉里贾尼被杀的报道、细节、原因和争斗

为美国节省了1000万美元!拉里贾尼被杀的报道、细节、原因和争斗

鹰眼Defence
2026-03-18 17:55:36
歼-20总师简历被撤:履历曝光,大量细节披露,一细节暗藏真相

歼-20总师简历被撤:履历曝光,大量细节披露,一细节暗藏真相

博士观察
2026-03-18 21:19:25
第59波打击美以!24小时内,伊朗损失两员大将,内奸还在高层行动

第59波打击美以!24小时内,伊朗损失两员大将,内奸还在高层行动

军机Talk
2026-03-18 11:11:02
兄弟五人包揽伊朗政权、司法和外交!一图看懂伊朗版“肯尼迪家族”

兄弟五人包揽伊朗政权、司法和外交!一图看懂伊朗版“肯尼迪家族”

网易新闻出品
2026-03-18 20:15:27
2026-03-19 00:08:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7125文章数 20741关注度
往期回顾 全部

科技要闻

实测QClaw:腾讯突袭,给微信装上AI大脑

头条要闻

补壹刀:严峻现实浮出水面 以色列面临前所未有的压力

头条要闻

补壹刀:严峻现实浮出水面 以色列面临前所未有的压力

体育要闻

晋级2026世界杯,这届中国女篮啥水平?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

亲子
房产
家居
健康
艺术

亲子要闻

孩子吃完就拉记住这几个办法,尤其少食多餐最重要

房产要闻

大规模召回离职员工?碧桂园最新回应!

家居要闻

复古格纹 轻法森系风

转头就晕的耳石症,能开车上班吗?

艺术要闻

风景如画,太美了!

无障碍浏览 进入关怀版