网易首页 > 网易号 > 正文 申请入驻

小米最新大模型成果!罗福莉现身了

0
分享至

来源:量子位

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

小米的最新大模型科研成果,对外曝光了。

就在最近,小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。


而其中,因为更早之前在DeepSeek R1爆火前转会小米的罗福莉,也赫然在列,还是通讯作者。

罗福莉硕士毕业于北京大学,这次也算是因AI串联起了小米和北大。

有意思的是,就在今年9月DeepSeek登上《Nature》的时候,罗福莉也出现在了作者名单,不过是以“北京独立研究者”的身份。

当时还有过风言风语,说当初“雷军千万年薪挖来AI天才少女”,当事人可能离职了。

但这篇小米最新AI论文披露后,一切似乎有了答案…

小米最新AI成果:找到RL中稳定和效率的平衡

这篇论文大道至简,提出了一种在MoE架构中提高大模型强化学习的思路。

相对已经共识的是,当前强化学习已成为在预训练遇到瓶颈后,推动LLM突破能力边界的关键工具。

不过在MoE架构中,情况就没那么简单了,由于需要根据问题分配不同的专家,路由机制会让训练过程变得不稳定,严重时甚至会直接把模型“整崩”。

为了解决这个问题,研究团队提出了一种全新的思路,让MoE也能平稳且高效地推进大规模强化学习。

强化学习的灾难性崩溃

自从预训练时代告一段落,后训练成了巨头们拿起Scaling Law瞄准的的下一个战场。

靠着大规模强化学习,大模型开始学会更长链路的推理,也能搞定那些需要调用工具的复杂Agent任务。

不过,强化学习在扩展规模的过程中,总会不可避免地撞上一道铁幕:效率和稳定性的权衡。

想要高效率,就得训练得更“猛”——更高的学习率、更大的并行度、更频繁的样本更新。可这样一来,稳定性也更容易出现问题。

但一味追求稳定也不行,效率会被拖住,模型训练慢得像蜗牛。

想要解决这个问题,得先回到强化学习的底层一探究竟。

LLM的强化学习,通常分两步:

第一步是推理,模型自己生成内容、和环境互动、拿到反馈分数;

第二步是训练,根据这些分数去微调自己,并想办法在下次拿更高分。

不过,这两步通常不是在同一套系统里跑的。

比如,现在主流方案是SGLang负责生成内容,追求速度快;而Megatron负责训练更新,追求算得准。

虽然两边用的是同一套模型参数,但底层实现有细微差别,比如像随机性、精度、并行方式、缓存策略,这些看似微不足道的细节波动,都会让结果出现偏差。

于是就出现了一个尴尬现象:

一模一样的Prompt,两套模式下最终生成的结果都能不一样。


这种「概率漂移」积累多了,模型就会越学越偏,最后学着学着,训练目标和实际表现彻底牛头不对马嘴。

这就是业内常说,强化学习灾难性崩溃。

路由重放机制

研究团队指出,导致MoE在强化学习中容易崩掉的罪魁祸首,在于路由分布。

在MoE模型中,路由器不会把所有参数都用上,而是会根据每个输入token的特征,挑几位在该领域更擅长的“专家”出来干活,从而可以节省不少资源。

但副作用也很明显,这种动态模式会让模型在训练阶段和推理阶段得出的最佳策略大相径庭,比传统的稠密模型要“飘忽”得多。

对此,这篇论文给出了一种新颖的解决方案。

既然问题出在路由随机,那为何不直接把路由锁住呢?

他们的做法是:在推理时把路由分布记录下来,等到训练时再把这些分布原封不动地“重放”进去。

这样,训练和推理就走同一条路线,不再各干各的。

根据这种“重放”的特定,研究将这种方法命名为——Rollout Routing Replay(R3)。


解决了稳定性的问题,再来看看如何把效率也稳稳拿下。

在强化学习中,模型会不断重复“生成→获得奖励→更新→再生成”的飞轮,一个完整过程下来,可能要跑上几十万、甚至上百万次推理。

要是每次生成都要从头计算上下文,算力与时间成本将呈几何式增长。

为应对这种情况,主流推理引擎普遍采用KVCache前缀缓存策略:把之前算好的上下文保存下来,下次直接“接着算”。

不过,除了上下文不一致,MoE架构还涉及到路由选择不一致的问题——按照传统的解决方案,即便是重复的上下文,每一次计算,模型还是要重新选专家、激活专家。

因此,研究团队在KVCache的基础上又加了一招——路由掩码(routing mask)。

他们的想法是,既然对于对相同的上下文,MoE的路由结果应该一样,那干脆,把推理阶段的路由掩码和前缀KVCache一起缓存起来。

这样当相同上下文再次出现时,模型就能直接用上次的掩码,不必重算。

这样,R3就能够与现有的前缀缓存系统无缝衔接,在大规模强化学习及复杂的Agent任务中,也依然能保持出色的计算效率。

实验结果

为评估R3的实际效果,研究团队基于Qwen3-30B-A3B模型进行了一系列实验。

总体性能:


结果发现,不管在哪种场景下,R3的整体成绩都更好。

在多mini-step设置下,GRPO+R3的表现比GSPO高出1.29分。

若将R3与GSPO结合,性能还可以进一步提升0.95分。

训练稳定性:

崩溃情况也少了很多。

不难看出,随着训练时间的延长,即便到了第150步,R3依然能保持相对平缓的曲线。


相比之下,如果是用GRPO训练,到第60步时就已经严重跑偏。

优化与生成行为:

而且,R3不光让模型更稳,也让它更聪明。


实验结果结果表明,R3能更快找到正确方向、优化过程更丝滑,还能更早开始探索更优策略。

一句话总结,研究团队在这篇论文提出了一种叫R3的方法,通过在训练中复用推理阶段的路由分布,能够让MoE模型的强化学习更稳定、更高效。

论文作者

说完论文,再让我们看看这支由小米系和北京大学携手牵起的研究团队。

论文的第一作者叫Wenhan Ma。

资料不多,只知道Wenhan是小米LLM-Core团队的研究员,而且还是实习生。

此前,他还曾参与过小米MiMo模型与多模态MiMo-VL的研发。


相比起来,这篇论文的两名通讯作者,大家可能更耳熟能详一点。

一位是罗福莉。


罗福莉本科毕业于北京师范大学计算机专业,硕士阶段进入北京大学计算语言学深造。期间,她在不少NLP顶级会议上都发表过论文。

硕士毕业后,罗福莉加入阿里巴巴达摩院,担任机器智能实验室研究员,负责开发多语言预训练模型VECO,并推动AliceMind项目的开源工作。

2022年,罗福莉加入DeepSeek母公司幻方量化从事深度学习相关工作,后又担任DeepSeek的深度学习研究员,参与研发DeepSeek-V2等模型。

截至目前,罗福莉的学术论文总引用次数已超过1.1万次,仅在今年一年内就新增了约八千次引用。


而另一名通讯作者,正是罗福莉的北大硕士导师——穗志方。


穗教授是北京大学信息科学技术学院的教授、博士生导师,长期从事计算语言学、文本挖掘与知识工程研究,在NLP与AI领域发表了大量高水平论文。

但稍有有个新问题,在这篇论文成果的单位注释中,罗福莉的单位没有被明确,她既不是北大的,也没有被归入小米。


咦……依然是独立研究者?

论文:

https://arxiv.org/abs/2510.11370

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
失业游民的戾气越来越重了

失业游民的戾气越来越重了

经济学教授V
2025-11-12 18:49:14
阿联酋1-1伊拉克,阿里-哈马迪破门,卢安齐尼奥救主

阿联酋1-1伊拉克,阿里-哈马迪破门,卢安齐尼奥救主

懂球帝
2025-11-14 02:21:24
神舟二十要空载返航?3名航天员返航时间公布:换坐神舟二十一号

神舟二十要空载返航?3名航天员返航时间公布:换坐神舟二十一号

普陀动物世界
2025-11-14 10:15:50
你见过分了以后死缠烂打的,哭着求复合的!但你没见过鹿晗这样的

你见过分了以后死缠烂打的,哭着求复合的!但你没见过鹿晗这样的

乡野小珥
2025-11-12 08:52:22
正式确定!CBA后卫新星签约广东宏远,朱芳雨大手笔

正式确定!CBA后卫新星签约广东宏远,朱芳雨大手笔

体坛瞎白话
2025-11-14 08:08:07
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

古事寻踪记
2025-08-13 07:37:39
高市早苗态度强硬,挑衅中国核心利益,日媒:石破茂公开反对

高市早苗态度强硬,挑衅中国核心利益,日媒:石破茂公开反对

阿捤武器装备科普
2025-11-14 11:13:22
004航母命名权花落谁家?海军正式回应来了

004航母命名权花落谁家?海军正式回应来了

张嘴说财经
2025-11-13 19:14:50
副院长与门诊副主任不雅照,背后的警示?

副院长与门诊副主任不雅照,背后的警示?

小小一米月儿
2025-11-08 08:57:20
为什么网上支持曾医生的很多,支持副院长的人很少

为什么网上支持曾医生的很多,支持副院长的人很少

大张的自留地
2025-11-14 09:39:57
最强止战信号!解放军在高原亮出“獠牙”,让台岛不敢有非分之想

最强止战信号!解放军在高原亮出“獠牙”,让台岛不敢有非分之想

忠诚TALK
2025-11-14 09:56:48
持续发酵,055大驱过航日本,日威胁打击中方航母,军事专家解读

持续发酵,055大驱过航日本,日威胁打击中方航母,军事专家解读

起喜电影
2025-11-14 00:19:03
焦点速览:泽连斯基下放波城留守权,世行预测乌克兰经济增长5.2%

焦点速览:泽连斯基下放波城留守权,世行预测乌克兰经济增长5.2%

史政先锋
2025-11-14 12:17:15
重磅!库里跟安德玛解约,结束12年合作!

重磅!库里跟安德玛解约,结束12年合作!

牛锅巴小钒
2025-11-14 08:16:07
张继科锐评樊振东全运会表现:面对孙正几乎是一个战术,没有变化

张继科锐评樊振东全运会表现:面对孙正几乎是一个战术,没有变化

郝小小看体育
2025-11-14 08:53:45
4-0横扫!孙颖莎11-1吊打对手,半决赛战朱雨玲争决赛名额

4-0横扫!孙颖莎11-1吊打对手,半决赛战朱雨玲争决赛名额

羙晞
2025-11-14 12:34:09
她是上海知名主持,母亲是骆文莲,师傅是曹可凡,如今却转行幕后

她是上海知名主持,母亲是骆文莲,师傅是曹可凡,如今却转行幕后

阿讯说天下
2025-11-13 12:35:10
1949年兵败被俘后,宋希濂将四千两黄金交出来:这是人民的血汗

1949年兵败被俘后,宋希濂将四千两黄金交出来:这是人民的血汗

海佑讲史
2025-11-14 12:00:08
当世第1人?26岁姆巴佩杀疯1夜:2射1传+迎生涯400球 破梅西1纪录

当世第1人?26岁姆巴佩杀疯1夜:2射1传+迎生涯400球 破梅西1纪录

风过乡
2025-11-14 07:06:45
小米YU7拿“最佳结构奖”被嘲,网友辣评:不如颁“最佳抄袭奖”

小米YU7拿“最佳结构奖”被嘲,网友辣评:不如颁“最佳抄袭奖”

热点菌本君
2025-11-13 20:53:25
2025-11-14 13:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1384203文章数 4491关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

荒野求生选手林北称将退赛 母亲喊话:希望你能坚持

头条要闻

荒野求生选手林北称将退赛 母亲喊话:希望你能坚持

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

教育
本地
游戏
房产
军事航空

教育要闻

傲慢与偏见英文原版语音课13:贝内特拜访宾利先生

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

《战地6》减少地图最大玩家:减慢游戏节奏

房产要闻

突发!三亚放出今年起价最高宅地!

军事要闻

美军多海域再现“航母真空”

无障碍浏览 进入关怀版