网易首页 > 网易号 > 正文 申请入驻

小米AI新论文!雷军千万年薪要挖的DeepSeek天才少女署名

0
分享至


智东西
编译 程茜
编辑 李水青

智东西10月15日消息,10月14日,小米和北京大学联合署名的论文发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,出现在了这篇论文的通讯作者之列,但值得注意的是,论文作者中并没有标注罗福莉属于小米大模型团队


通讯作者中的罗福莉是95后,她本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。随后罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作,2022年入职DeepSeek,参与了MoE大模型DeepSeek-V2的研发。去年年底,小米被曝以千万年薪挖角DeepSeek-V2核心开发者之一罗福莉,使其冲上热搜,但双方至今都未公开声明是否正式入职小米。


▲DeepSeek“天才少女”罗福莉(图源:罗福莉个人公众号)

这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。实验结果证明,R3的整体性能优于GRPO、TIS这类强化学习领域提升模型性能的优化算法,且引入R3的所有组合方法全过程无崩盘,训练过程中训练-推理KL散度等始终较低,在不影响训练速度的情况下,使得极端token比例减少一个量级。

当下,强化学习(RL)已成为提升大语言模型能力的关键方法。然而,在MoE模型中,路由机制往往会引入不稳定性,甚至导致强化学习训练崩溃,但现有的引入重要性采样机制等并不能提升训练稳定性。不同于此前采取诸如丢弃差异较大的数据之类的变通方法,这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。

论文地址:https://arxiv.org/pdf/2510.11370

一、破解强化学习崩溃的关键方法,小米团队提出R3

强化学习已成为大语言模型后期训练的基石,利用大规模强化学习,大模型更深入、更广泛推理,获得解决复杂问题所需的高级能力,但其面临的关键挑战是如何平衡效率和稳定性。

现代强化学习框架通常使用不同的引擎进行推理和训练用于部署,但这种架构上的分离可能导致token概率出现分歧,甚至可能导致灾难性的强化学习崩溃。然而,现有的改进方法并不能完全解决MoE模型上进行强化学习训练时出现的强化学习离线策略问题。

研究人员提出的R3,其工作原理是在序列生成期间从推理引擎捕获路由分布,并将其直接重放到训练引擎中。这一过程可以缩小训练和推理之间的差距,其显著特征是不同引擎生成的逻辑向量的KL散度(量化两个概率分布之间的差异程度,值越小说明两个分布越接近)显著降低,两个阶段之间概率差异显著的token数量减少了大约一个数量级。

此外,该方法同时适用于在线策略(on-policy)和小批量(mini-batch)式离线策略强化学习(off-policy)场景。

论文提到了研究团队的三大主要贡献:

1、系统识别和分析了MoE模型中训练和推理之间的路由分布差异,强调了它们在训练不稳定性中的作用;

2、提出Rollout Routing Replay,它重用训练引擎内部的推理时间路由分布,以协调训练和推理之间的路由行为;

3、将R3应用于多种RL设置进行MoE强化学习,并表明R3在稳定性和整体性能方面优于GSPO和TIS。

二、可显著缩小训练-推理差异,对Agent任务大有裨益

R3的主要思路是在训练前向传播过程中重用推理路由掩码I,同时仍将softmax应用于训练逻辑以保持梯度流。

这种设计主要有两个目的:一是对齐训练和推理,确保训练重放期间使用的专家与推理期间选择的专家相匹配,从而消除专家选择中的不匹配;二是保留梯度数据流,通过仅重放掩码,梯度仍然可以流回logits而不会干扰计算图,这有助于有效地优化路由器。


▲重放门控权重、重放输出y的计算方式

具体来看,R3在效率优化上,通过路由掩码缓存(Router Mask Caching)适配多轮对话场景,降低计算开销

其论文提到,缓存的路由掩码具有相似的属性,对于相同的前缀token,MoE路由器应该产生相同的结果,因此来自推理引擎的路由掩码可以与前缀KVCache一起缓存。

对于每个层和token前缀,相应的路由掩码都存储在KVCache中。当相同的前缀出现并命中缓存时,这些掩码可以被重用,从而无需重新计算,这使得R3能够与前缀缓存机制无缝集成。

研究人员称,缓存路由掩码在Agent场景中有较大应用空间。例如软件工程和网页浏览等Agent任务,都涉及自回归生成和工具调用之间的多轮交互,为了提高效率,这些过程直接重用了前几轮的KVCache,因此无需重新生成已计算的数据。路由掩码缓存使R3能够在强化学习代理任务中保持高效,而无需重新预填充以生成路由掩码。

为了证明R3在缩小训练-推理差异上的有效性,研究人员使用Qwen3-30B-A3B模型进行了验证,其将推理过程中获得的路由分布缓存在SGLang上,并在Megatron框架内重放它们。


▲使用Megatron进行两次前向传播获得的概率

结果表明,应用R3后,训练和推理之间的KL散度从1.5×10⁻³减小到7.5×10⁻⁴,接近于稠密模型的6.4×10⁻⁴水平,这表明其训练-推理差异减少。

研究人员还绘制了使用R3的训练-推理差异比率的累积分布图,对于MoE模型,应用R3可将具有较大训练推理差异的token的频率降低一个数量级。


▲a、MoE模型中训练-推理差异的说明,b、MoE+R3模型中训练-推理差异的说明,c、稠密模型中训练-推理差异的说明,d、极端token分布函数

三、实测三大能力提升:整体性能、训练稳定、优化生成行为

为了评估R3对强化学习的性能改进,研究人员从BigMath、ORZ等开源数据集筛选约10万道可验证数学题,采用AIME24、AIME25、AMC23和MATH500作为基准数据集进行评估,并在单次训练过程中每5个全局步骤测量一次模型性能。

其选择的模型是Qwen3-30B-A3B-Base及其微调模型Qwen3-30B-A3B-SFT。

评估方式是每5个全局步骤记录模型性能,最终报告最佳性能及对应训练步骤,若模型后期性能骤降,同时追踪训练崩盘步骤”。

实验结果表明,整体性能上,R3在多步更新场景,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3进一步提升至69.00,比单独GSPO高2.24分。

单步更新场景,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO+TIS(66.24)高5.59分;Base模型上,GRPO+R3平均得分70.73,比GRPO(61.69)高9.04分。


▲主要评估结果

研究人员还发现,将R3与TIS结合使用并不能带来明显的性能提升,甚至可能降低性能,例如在SFT模型的单小步设置下,TIS+R3的得分比单独使用R3低1.69分。由于R3已经显著降低了训练和推理之间的策略差异,因此TIS的额外校正效果微乎其微。

训练稳定性方面:如GRPO、GRPO+TIS等无R3的方法在单步更新场景中均出现崩盘,GRPO在60步崩盘、GRPO+TIS在105步崩盘。

引入R3后,所有组合方法均无崩盘,且训练过程中训练-推理KL散度等始终较低。


▲多步更新训练-推理崩溃分析

优化与生成行为方面,在训练过程中,R3还能增强优化稳定性、探索行为和生成动态。下图是研究人员绘制的单步+基础模型组训练过程中的序列长度、梯度范数、生成熵和评估分数。


▲wen3-30B-A3B-Base训练动态

结果显示,R3具有更小的梯度范数、更平滑的序列增长模式和更稳定的熵。实验中使用R3时,生成的序列长度在训练开始时迅速上升,表明R3能够快速捕捉到正确的优化方向,相比之下其他两个训练过程在第80步之后才缓慢上升,并且波动更为明显;R3始终保持较低的梯度范数,表明优化过程更加稳定;实验使用R3时,熵在大约第25步后开始稳步上升,表明模型更早地开始探索更优策略,不使用R3时,熵上升得更晚,并且波动较大。

结语:聚焦MoE模型训练难题,小米提出新思路

MoE架构如今已成为扩展现代语言模型的基石,其采用门控网络,对每个token稀疏地仅激活一部分专家参数,从而将模型的总参数数量与其推理成本分离开来,从而大幅提升了模型容量。然而,由于门控网络的敏感性,MoE模型容易受到训练不稳定性的影响,这使得路由稳健性成为有效模型收敛的核心挑战。

在这篇论文中,研究人员在训练过程中重用推理时的路由分布,以在保留梯度流的同时对齐专家选择。这种思路或为行业提供了新的研究思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖人101-73大胜太阳,要争第3!詹姆斯1战创下3大神迹,前无古人

湖人101-73大胜太阳,要争第3!詹姆斯1战创下3大神迹,前无古人

毒舌NBA
2026-04-11 13:13:25
潮汕那么多富豪,为何还是发展不起来?到底输在了哪里?

潮汕那么多富豪,为何还是发展不起来?到底输在了哪里?

贱议你读史
2026-04-10 12:20:10
斯诺克2场10-9!冠军脱险,1人被判0-10输球,王信伯1纪录被打破

斯诺克2场10-9!冠军脱险,1人被判0-10输球,王信伯1纪录被打破

刘姚尧的文字城堡
2026-04-11 07:47:27
如果当初中国不改革开放,今天仍是全球最落后的国家之一吗?

如果当初中国不改革开放,今天仍是全球最落后的国家之一吗?

掠影后有感
2026-04-10 09:58:45
刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

复转这些年
2026-04-06 22:24:11
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

观察者海风
2026-04-09 17:42:58
iPhone Ultra 售价曝光,国行起售价 17,999 !

iPhone Ultra 售价曝光,国行起售价 17,999 !

XCiOS俱乐部
2026-04-09 13:52:43
去了一趟非洲的农村,回来后才敢讲,那里的贫困,是无声的震撼

去了一趟非洲的农村,回来后才敢讲,那里的贫困,是无声的震撼

千秋文化
2026-04-07 10:47:30
对统一避而不谈、郑丽文是何目的?她有2点苦衷,还有1件大事要做

对统一避而不谈、郑丽文是何目的?她有2点苦衷,还有1件大事要做

林子说事
2026-04-11 15:18:13
自来水有没有必要加装净水器,师傅终于说出实话!多亏好心提醒…

自来水有没有必要加装净水器,师傅终于说出实话!多亏好心提醒…

小柱解说游戏
2026-04-10 15:13:55
与富商海外产子真相大白近1年,江疏影现状曝光,王传君没说错

与富商海外产子真相大白近1年,江疏影现状曝光,王传君没说错

天天热点见闻
2026-04-11 15:09:18
男子放20张粘鼠贴粘不住老鼠,查监控发现,老鼠挪开粘鼠贴,为自己清理出一条“安全通道”

男子放20张粘鼠贴粘不住老鼠,查监控发现,老鼠挪开粘鼠贴,为自己清理出一条“安全通道”

观威海
2026-04-11 12:53:17
摸清中国家底?俄罗斯曝光我国军事实力,西方想要超越,太难!

摸清中国家底?俄罗斯曝光我国军事实力,西方想要超越,太难!

音乐时光的娱乐
2026-04-11 13:35:05
70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

眼界看视野
2026-04-11 21:09:54
库里11+5勇士不敌国王吞连败,波杰姆斯基30分国王4人20+

库里11+5勇士不敌国王吞连败,波杰姆斯基30分国王4人20+

湖人崛起
2026-04-11 12:38:57
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,却成为我如今心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,却成为我如今心病

乡野小珥
2026-04-11 21:07:42
169元路由器塞了星闪芯片,TP-LINK把牙膏挤爆了

169元路由器塞了星闪芯片,TP-LINK把牙膏挤爆了

薛定谔的BUG
2026-04-10 09:07:18
毛主席的厨师公开揭露:毛主席一生最爱吃三种食物,大家知道吗?

毛主席的厨师公开揭露:毛主席一生最爱吃三种食物,大家知道吗?

鹤羽说个事
2026-04-09 22:36:32
周末红包雨!31股发布分红预案,最高10派16.5元,真豪横

周末红包雨!31股发布分红预案,最高10派16.5元,真豪横

慧眼看世界哈哈
2026-04-11 19:27:23
养殖的也不行! 2016年男子破肚剥皮开“直播”炫耀被抓获

养殖的也不行! 2016年男子破肚剥皮开“直播”炫耀被抓获

万象硬核本尊
2026-04-11 19:15:08
2026-04-11 23:44:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11556文章数 117027关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
健康
本地
数码
公开课

家居要闻

复古风格 自然简约

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

逆天!英特尔新技术显存暴降 18 倍,8GB 显卡秒变顶配,游戏党狂喜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版