网易首页 > 网易号 > 正文 申请入驻

小米最新大模型成果!罗福莉现身了

0
分享至

来源:量子位

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

小米的最新大模型科研成果,对外曝光了。

就在最近,小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。


而其中,因为更早之前在DeepSeek R1爆火前转会小米的罗福莉,也赫然在列,还是通讯作者。

罗福莉硕士毕业于北京大学,这次也算是因AI串联起了小米和北大。

有意思的是,就在今年9月DeepSeek登上《Nature》的时候,罗福莉也出现在了作者名单,不过是以“北京独立研究者”的身份。

当时还有过风言风语,说当初“雷军千万年薪挖来AI天才少女”,当事人可能离职了。

但这篇小米最新AI论文披露后,一切似乎有了答案…

小米最新AI成果:找到RL中稳定和效率的平衡

这篇论文大道至简,提出了一种在MoE架构中提高大模型强化学习的思路。

相对已经共识的是,当前强化学习已成为在预训练遇到瓶颈后,推动LLM突破能力边界的关键工具。

不过在MoE架构中,情况就没那么简单了,由于需要根据问题分配不同的专家,路由机制会让训练过程变得不稳定,严重时甚至会直接把模型“整崩”。

为了解决这个问题,研究团队提出了一种全新的思路,让MoE也能平稳且高效地推进大规模强化学习。

强化学习的灾难性崩溃

自从预训练时代告一段落,后训练成了巨头们拿起Scaling Law瞄准的的下一个战场。

靠着大规模强化学习,大模型开始学会更长链路的推理,也能搞定那些需要调用工具的复杂Agent任务。

不过,强化学习在扩展规模的过程中,总会不可避免地撞上一道铁幕:效率和稳定性的权衡。

想要高效率,就得训练得更“猛”——更高的学习率、更大的并行度、更频繁的样本更新。可这样一来,稳定性也更容易出现问题。

但一味追求稳定也不行,效率会被拖住,模型训练慢得像蜗牛。

想要解决这个问题,得先回到强化学习的底层一探究竟。

LLM的强化学习,通常分两步:

第一步是推理,模型自己生成内容、和环境互动、拿到反馈分数;

第二步是训练,根据这些分数去微调自己,并想办法在下次拿更高分。

不过,这两步通常不是在同一套系统里跑的。

比如,现在主流方案是SGLang负责生成内容,追求速度快;而Megatron负责训练更新,追求算得准。

虽然两边用的是同一套模型参数,但底层实现有细微差别,比如像随机性、精度、并行方式、缓存策略,这些看似微不足道的细节波动,都会让结果出现偏差。

于是就出现了一个尴尬现象:

一模一样的Prompt,两套模式下最终生成的结果都能不一样。


这种「概率漂移」积累多了,模型就会越学越偏,最后学着学着,训练目标和实际表现彻底牛头不对马嘴。

这就是业内常说,强化学习灾难性崩溃。

路由重放机制

研究团队指出,导致MoE在强化学习中容易崩掉的罪魁祸首,在于路由分布。

在MoE模型中,路由器不会把所有参数都用上,而是会根据每个输入token的特征,挑几位在该领域更擅长的“专家”出来干活,从而可以节省不少资源。

但副作用也很明显,这种动态模式会让模型在训练阶段和推理阶段得出的最佳策略大相径庭,比传统的稠密模型要“飘忽”得多。

对此,这篇论文给出了一种新颖的解决方案。

既然问题出在路由随机,那为何不直接把路由锁住呢?

他们的做法是:在推理时把路由分布记录下来,等到训练时再把这些分布原封不动地“重放”进去。

这样,训练和推理就走同一条路线,不再各干各的。

根据这种“重放”的特定,研究将这种方法命名为——Rollout Routing Replay(R3)。


解决了稳定性的问题,再来看看如何把效率也稳稳拿下。

在强化学习中,模型会不断重复“生成→获得奖励→更新→再生成”的飞轮,一个完整过程下来,可能要跑上几十万、甚至上百万次推理。

要是每次生成都要从头计算上下文,算力与时间成本将呈几何式增长。

为应对这种情况,主流推理引擎普遍采用KVCache前缀缓存策略:把之前算好的上下文保存下来,下次直接“接着算”。

不过,除了上下文不一致,MoE架构还涉及到路由选择不一致的问题——按照传统的解决方案,即便是重复的上下文,每一次计算,模型还是要重新选专家、激活专家。

因此,研究团队在KVCache的基础上又加了一招——路由掩码(routing mask)。

他们的想法是,既然对于对相同的上下文,MoE的路由结果应该一样,那干脆,把推理阶段的路由掩码和前缀KVCache一起缓存起来。

这样当相同上下文再次出现时,模型就能直接用上次的掩码,不必重算。

这样,R3就能够与现有的前缀缓存系统无缝衔接,在大规模强化学习及复杂的Agent任务中,也依然能保持出色的计算效率。

实验结果

为评估R3的实际效果,研究团队基于Qwen3-30B-A3B模型进行了一系列实验。

总体性能:


结果发现,不管在哪种场景下,R3的整体成绩都更好。

在多mini-step设置下,GRPO+R3的表现比GSPO高出1.29分。

若将R3与GSPO结合,性能还可以进一步提升0.95分。

训练稳定性:

崩溃情况也少了很多。

不难看出,随着训练时间的延长,即便到了第150步,R3依然能保持相对平缓的曲线。


相比之下,如果是用GRPO训练,到第60步时就已经严重跑偏。

优化与生成行为:

而且,R3不光让模型更稳,也让它更聪明。


实验结果结果表明,R3能更快找到正确方向、优化过程更丝滑,还能更早开始探索更优策略。

一句话总结,研究团队在这篇论文提出了一种叫R3的方法,通过在训练中复用推理阶段的路由分布,能够让MoE模型的强化学习更稳定、更高效。

论文作者

说完论文,再让我们看看这支由小米系和北京大学携手牵起的研究团队。

论文的第一作者叫Wenhan Ma。

资料不多,只知道Wenhan是小米LLM-Core团队的研究员,而且还是实习生。

此前,他还曾参与过小米MiMo模型与多模态MiMo-VL的研发。


相比起来,这篇论文的两名通讯作者,大家可能更耳熟能详一点。

一位是罗福莉。


罗福莉本科毕业于北京师范大学计算机专业,硕士阶段进入北京大学计算语言学深造。期间,她在不少NLP顶级会议上都发表过论文。

硕士毕业后,罗福莉加入阿里巴巴达摩院,担任机器智能实验室研究员,负责开发多语言预训练模型VECO,并推动AliceMind项目的开源工作。

2022年,罗福莉加入DeepSeek母公司幻方量化从事深度学习相关工作,后又担任DeepSeek的深度学习研究员,参与研发DeepSeek-V2等模型。

截至目前,罗福莉的学术论文总引用次数已超过1.1万次,仅在今年一年内就新增了约八千次引用。


而另一名通讯作者,正是罗福莉的北大硕士导师——穗志方。


穗教授是北京大学信息科学技术学院的教授、博士生导师,长期从事计算语言学、文本挖掘与知识工程研究,在NLP与AI领域发表了大量高水平论文。

但稍有有个新问题,在这篇论文成果的单位注释中,罗福莉的单位没有被明确,她既不是北大的,也没有被归入小米。


咦……依然是独立研究者?

论文:

https://arxiv.org/abs/2510.11370

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人体缺什么维生素会长白头发呢?怎么防止白发出现?看完就明白了

人体缺什么维生素会长白头发呢?怎么防止白发出现?看完就明白了

健康之光
2026-03-22 22:35:08
美光:每辆汽车将需要300GB内存 !

美光:每辆汽车将需要300GB内存 !

中国半导体论坛
2026-03-23 22:07:46
你遇到过最奇葩的前任是啥样?网友:前任和堂妹不清不楚

你遇到过最奇葩的前任是啥样?网友:前任和堂妹不清不楚

带你感受人间冷暖
2026-01-25 00:20:06
中共中央批准,单义同志任山东省委常委

中共中央批准,单义同志任山东省委常委

新京报
2026-03-23 18:38:44
8罚0中,周琦率领吉林队击败北京首钢,以实际行动拒绝中国男篮

8罚0中,周琦率领吉林队击败北京首钢,以实际行动拒绝中国男篮

姜大叔侃球
2026-03-23 21:55:08
沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

千秋文化
2026-02-10 21:02:09
今日油价:今天3月24日,全国加油站调整后92、95汽油最新零售价

今日油价:今天3月24日,全国加油站调整后92、95汽油最新零售价

沙雕小琳琳
2026-03-24 03:06:04
公司倒闭女生失业了,本是糟心事,她却反手打包6只猫同事带回家

公司倒闭女生失业了,本是糟心事,她却反手打包6只猫同事带回家

捣蛋窝
2026-03-24 00:39:19
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
深夜把女领导误当老婆,发了句想你了,她秒回:来我办公室

深夜把女领导误当老婆,发了句想你了,她秒回:来我办公室

温情故事匣
2026-03-20 17:02:38
69年两名军人找到一农妇,提及一开国元帅,农妇:可否让他见见我

69年两名军人找到一农妇,提及一开国元帅,农妇:可否让他见见我

历史龙元阁
2026-03-23 09:25:15
白宫向全世界公布了高市的丑态百出,日本网民炸了:国耻!丢脸

白宫向全世界公布了高市的丑态百出,日本网民炸了:国耻!丢脸

离离言几许
2026-03-23 20:20:16
95后女教师自拍不雅视频售卖后续:本人颜值照曝光,网友为之惋惜

95后女教师自拍不雅视频售卖后续:本人颜值照曝光,网友为之惋惜

一盅情怀
2026-03-23 16:55:49
老师拍视频要求学生讲台互扇耳光,10岁男童身亡,家属不和解后续

老师拍视频要求学生讲台互扇耳光,10岁男童身亡,家属不和解后续

眼光很亮
2026-03-23 18:02:53
央行联合发布新规,4月1日执行,纸质存单储户务必提前准备

央行联合发布新规,4月1日执行,纸质存单储户务必提前准备

复转这些年
2026-03-23 23:03:35
悲催!200万存款无房贷,80后夫妻原本计划备孕,双双被裁焦虑了

悲催!200万存款无房贷,80后夫妻原本计划备孕,双双被裁焦虑了

火山詩话
2026-03-24 05:38:02
巴萨危机?2亿欧亚马尔被换后发飙 4次怒指弗里克:总针对我 疯了

巴萨危机?2亿欧亚马尔被换后发飙 4次怒指弗里克:总针对我 疯了

风过乡
2026-03-24 07:57:07
惜败!东契奇32+7里程碑,里夫斯24+5艾顿尽力,老詹12+9扭头就走

惜败!东契奇32+7里程碑,里夫斯24+5艾顿尽力,老詹12+9扭头就走

鱼崖大话篮球
2026-03-24 09:46:53
开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

触摸史迹
2026-03-23 10:31:17
广东2位彩民中奖540万元!

广东2位彩民中奖540万元!

东莞好生活
2026-03-24 09:33:56
2026-03-24 11:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2595338文章数 6088关注度
往期回顾 全部

科技要闻

史上最大造芯计划启动,马斯克胃口为何这么大

头条要闻

伊朗"特别感谢"西班牙首相:将其头像贴在导弹上发射

头条要闻

伊朗"特别感谢"西班牙首相:将其头像贴在导弹上发射

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

林峰张馨月全家浙江游 岳母帮忙带女儿

财经要闻

很多人,都被黄金吓怕了!

汽车要闻

我行我素的豪华 全新一代雷克萨斯更犀利了

态度原创

教育
家居
亲子
手机
公开课

教育要闻

已知7A➕5B=46,求A➕B=?

家居要闻

智慧生活 奢享家居

亲子要闻

游乐园内四大安全杀手,家长一定要带孩子规避风险!

手机要闻

iPhone 折叠屏终于官宣!20 周年大改 + 7.7 英寸内屏,这次真要封神?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版