三星发力大模型！三星研究院联合北大发布 M2RL，系统揭秘多领域RL训练机制|算法|科学|rl|多域|三星电子

三星发力大模型！三星研究院联合北大发布 M2RL，系统揭秘多领域RL训练机制

2026-03-13 20:31:01　来源: AI科技评论

广东举报

分享至

三星研究院开展了M2RL研究项目，对多域强化学习进行了系统性的研究和分析。

大模型训练需要同时兼顾多个领域能力，包括Agentic 能力、数学推理、代码生成等。如何训练一个能够在多个领域同时达到专家水平的通用模型，已成为当前研究中的一项关键挑战。尤其是在强化学习（RL）阶段，如何通过合理的训练机制与超参数配置，缓解多领域训练中的能力冲突与兼容问题，对于模型最终性能的提升至关重要。为此，三星研究院联合北京大学，发布技术报告R2Mixer(To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models)，系统分析了多领域RL的训练机理，通过系统级调优，显著提升了多领域RL后的模型效果。

值得关注的是，结合去年10月份的相关报道，三星已向英伟达采购5万张 GPU用于构建大规模AI 基础设施。此举或许标志着三星在大模型领域正大幅加大投入，意在打造自主可控的基础模型体系，为未来在手机、智能终端、自动化工厂等场景中部署通用 AI 能力提供底层支撑。

文章地址：https://arxiv.org/abs/2602.12566

项目主页：https://github.com/Mosi-AI/M2RL

关键痛点

在人工智能的浪潮中，LLM正以前所未有的速度席卷Agent、数学推理、代码生成、科学问题求解等关键领域，一场关于"如何打造全能型AI专家"的技术竞赛已然拉开帷幕！目前学界存在两种主流的RL后训练范式：

▪ 混合多任务范式：同时学习来自不同领域的数据和奖励；

▪ 专家融合范式：分别训练各领域专家，再通过权重合并或蒸馏技术融合。

两大路线各有优劣，DeepSeek-R1、Qwen3、GLM-4.5、MiMo-V2等明星模型亦选择不同路径，但学界对这两种范式的系统性对比和内在机制的分析仍然缺乏。面对构建通用多领域专家模型的核心痛点：

1)训练效率与性能的两难：不同领域的强化学习是否会产生梯度干扰，导致整体性能下降？混合多任务训练的计算成本是否低于分别训练后合并？ 2) 领域知识的迁移与干扰：不同领域的强化学习是否存在知识迁移效应？还是会产生互相干扰？这种关系在不同类型的任务之间是否有差异？ 3) 模型合并的内在机制：模型合并后的性能增益从何而来？不同合并方法之间有何优劣？如何选择最优的合并策略？ 4) 自我评判能力的演化：RLVR训练是否能够使模型获得自我评判能力？这种能力在不同训练范式下如何变化？

研究团队基于开源数据集进行完整的SFT+RL后训练过程实现可控的实验比较，进而深入分析其内在机制。

M2RL：系统性研究与实验设计

三星研究院开展了M2RL研究项目（Mixed multi-task training or separate training followed by modelMerging forReinforcementLearning），对多域强化学习进行了系统性的研究和分析。研究团队基于Nemotron 3 Nano技术报告中开源的SFT或RL数据进行实验，选择了五个常见的RLVR域：数学、编程、科学、指令跟随以及Agent，初始模型选用Qwen3-4B-Base，RL算法选用GRPO。

1）对于有监督微调(SFT)，研究团队遵循Nemotron 3 Nano技术报告中的数据配比将其开源数据进行合理组合。其中，对于数量较多的开源数据集进行随机采样，对于数量较少的开源数据集则重复使用（最多10次），最终获得~14M的数据用于有监督微调，详细配比如下：

2）对于强化学习训练，研究团队同样使用Nemotron 3 Nano开源的RL训练数据，其数据配比及来源总结如下：

3）对于模型融合方法，研究团队考虑了广泛使用的weight merging (对模型权重加权平均)和multi-teacher on-policy-distillation技术。其中，weight merging包括average merging, task arithmetic merging, Ties-merging以及SCE merging，同时也考察了这些方法与DARE的组合使用效果。对于MT-OPD，他们使用来自5个域的专家模型作为teacher蒸馏有监督微调后的模型，设计相应的teacher路由策略。

所有实验在相同型号显卡上运行，详细的训练设置及GPU Hours如下：

M2RL：评测结果及机制分析

1.评测结果

研究团队在跨越5个域的9个benchmark上对模型进行评估：数学（AIME’24和AIME’25）、代码（LiveCodeBench v5和v6）、科学（HLE和GPQA-Diamond）、指令跟随（IFEval和IFBench ）以及Agent（BFCL v3）：

其中model merging报告的是Ties-merging的结果，其表现最佳；详细对比如下：

从上述结果可以看出：

[1]就5个独立RL模型而言，math, coding,instruction following和agent域的RL模型都在对应域的benchmark上获得了最佳表现；有趣的是math域的RL模型比science域的RL模型在science benchmark上获得了更好的表现，可能这两个science benchmark需要更多的逻辑推理和数学计算而非科学知识。

[2]混合的多任务RL可以用约63.7%的GPU Hours获得与单独RL再融合相当的效果；不同域之间的干扰并不明显，甚至有增益。例如，三个推理相关的域(math, coding和science)的RL就互有增益，Instruction Following域也有助于这三个域的评估。有趣的是，所有其他域都对agent域没有增益，可能单轮的逻辑推理对于多轮的工具调用和环境交互价值有限，但仍然未观察到互相干扰现象。

[3]weight merging这类training-free的融合方法效果意外的很好，不仅继承了原始模型的绝大部分性能，甚至在AIME’24, AIME’25, HLE, IFEval和BFCL v3数据集比对应专家模型还要强，再次印证了不同域的互相增益效果。此外，weight merging无需额外的GPU Hours即可达到稍微优于MT-OPD的效果。

除了最终表现，研究团队还给出了不同域RL训练过程中模型在不同域的benchmark上的表现。具体的，选择AIME’24, LiveCodeBench v5, GPQA-Diamond, IFEval和BFCL v3分别作为math, coding, science, instruction following和agent域的代表，结果如下：

可以看到三个推理域(math, coding和science)的RL过程可以稳定提升彼此的表现。此外，instruction following和agent域的任务只有对应域的RL能稳步提升表现，推理域RL对其并无增益。反之，instruction following和agent域的RL却可以或多或少的提升推理域的能力表现，说明推理为基本能力，各种域的学习都需要。

研究团队仅用开源数据，从Qwen3-4B-Base开始训练便获得了和官方的Qwen3-4B可比的结果，证明其工程实现的有效性：

除了上述评测结果之外，研究团队还从信息约束、模型预测行为和自我验证等角度深入分析多域RL训练的工作机理。更多分析内容详见论文。

总结与展望

三星研究院针对大模型后训练范式进行了系统的对比。研究通过严谨的受控实验，深入剖析了“混合多任务RL”与“专家模型融合”在多域能力构建中的性能边界。针对梯度干扰、领域知识迁移、模型合并机制及自我评判能力演化等行业核心痛点，该研究不仅揭示了多域强化学习的内在作用机理，更在训练效率与性能平衡上提供了关键保障,有效支撑了千亿、万亿等更大参数模型的RL训练。

作者信息

本文共有3位共同一作，其中王好庆、龙翔为三星大模型高级研究员，李子恒为北京大学博士生，研究方向为大模型强化学习。

本文通讯作者为唐业辉，目前担任三星大模型算法负责人、高级技术总监。他博士毕业于北京大学，已发表AI顶会论文50余篇，Google学术引用1万+，并担任NeurIPS、ICML等会议的领域主席。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.