网易首页 > 网易号 > 正文 申请入驻

月之暗面公开RL训练加速方法:训练速度暴涨97%,长尾延迟狂降93%

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

u1s1,现在模型能力是Plus了,但Rollout阶段的速度却越来越慢……

于是月之暗面出手了:爆改RL训练速度,让LLM“越跑越快”!



最近月之暗面联合清华大学提出了全新的加速引擎Seer,能够在不改变核心训练算法的前提下,大幅度提升LLM的强化学习训练速度。



依托组内上下文设计,可实现同步RL的Rollout效率提升74%~97%,长尾延迟减少75%~93%

好好好,几乎是模型换代式的效率提升。



下面来康康详细内容。

跑得更快、更省资源

强化学习目前已成为推动LLM发展的核心技术,但现有系统面临着严重的性能瓶颈。

具体来说,就是在端到端迭代过程中,生成阶段(rollout phase)会耗费大量的时间资源,然而该阶段受固有工作负载不均衡的影响,存在明显的长尾延迟问题,且资源利用率较低。



因此研究团队针对性推出了高效同步RL框架Seer

其核心架构包括三大模块:

1、推理引擎池(Inference Engine Pool)

基于DRAM/SSD构建,包括多个推理实例与跨节点的全局KVCache池,不仅可以支持负载均衡,又能通过KVCache池复用中间数据,避免重复计算。

2、请求缓冲区(Request Buffer)

作为所有rollout请求的统一入口,负责维护请求的全量元数据(包括组ID、提示词长度、原始最大生成长度、已生成长度等),并管理请求状态(未调度/处理中/已完成片段),实现资源的精细化调度。

3、上下文管理器(Context Manager)

负责维护所有请求的上下文视图,并基于上下文信号生成调度决策。

另外,Seer还引入了三项关键技术,包括用于动态负载均衡的分段生成、上下文感知调度以及自适应分组推测解码,协同降低长尾延迟和提高资源利用效率。

技术一:分段生成(Divided Rollout)

针对内存波动与负载失衡,Seer提出“精细化分段+全局KVCache支撑” 的解决方案。

首先是将GRPO中隶属同一提示词的响应拆解为多个独立请求,再将每个请求按照生成长度进一步拆分为多个片段。

然后重新回到请求缓冲区,更新已生成长度,等待后续调度直到生成原始最大长度。

同时为避免重新调度时的提示词编码重计算,Seer复用全局KVCache池,将每个片段的中间数据都存储在共享池中。

这样就能在片段迁移到新实例时,直接从共享池中读取KVCache,而无需重新编码提示词,大幅降低迁移开销。

技术二:上下文感知调度(Context-Aware Scheduling)

为了解决调度失衡、长请求延迟导致的长尾问题,Seer使用“先探路+后调度”的策略。

先为每个提示词组指定第一个响应为投机请求(speculative request),优先获取该组的长度特征,再基于特征调度剩余请求,避免长请求被保留到最后。

技术三:自适应分组推测解码(Adaptive Grouped Speculative Decoding)

由于传统推测解码依赖静态小模型生成草稿,无法适配RL中目标模型的迭代更新,Seer利用组内响应模式相似的特性,通过DGDS(分布式分组草稿服务器)聚合组内所有响应的token序列,构建动态模式参考库。



然后基于参考库生成草稿,就能削减额外模型开销,并随着组内响应的增加进一步提升草稿质量。

最终依靠三者的协同作用,既能保障同步RL的算法保真度,又可从内存、调度、推理三个维度全面优化rollout效率。

实验验证

为了验证系统性能,研究团队选取MoonlightQwen2-VL-72BKimi-K2三个模型,均采用GRPO算法训练,并将veRL(同步RL系统,支持训练与rollout协同部署)作为基线系统进行对比。



在端到端性能验证上,实验结果发现Seer在不同工作负载中均实现性能突破,其中吞吐量可提升74%~97%,显著高于veRL,且稳定性更强。

而veRL的长尾延迟则相当严重,例如在Moonlight任务中,veRL最后10%请求需耗时3984秒(占总时长约50%),而Seer仅需364秒,长尾延迟可实现降低85%。



此外,Qwen2-VL-72B任务中可降低93%,Kimi-K2任务降低75%。

研究团队还对Seer的核心创新点(上下文感知调度、分组推测解码)进行了专项实验。

先是在Qwen2-VL-72B任务的第5次迭代中,设置三组对比:

  • No-Context:仅分段生成,无长度预测。
  • Context-Aware:Seer的调度策略。
  • Oracle:提前知道所有请求的真实长度,执行理想LFS调度。



结果表明,在吞吐量上Context-Aware可达到Oracle的95%,远高于No-Context;在长尾延迟上,Context-Aware也仅为No-Context的13%,接近Oracle。

说明基于组内长度上下文的调度,虽无法达到理想Oracle水平,但已能大幅缓解长尾问题,且无需提前知道真实长度,实用性较强。

然后同样是在Qwen2-VL-72B任务中,设置四组对比推测解码的有效性:

  • No-SD:无推测解码。
  • No-Context:有推测解码,但不聚合组内模式。
  • No-Adapt:有组模式,但固定推测参数。
  • Seer:完整分组推测解码。



结果显示,Seer在吞吐量上远高于No-Context与No-Adapt,Seer的接受长度也随rollout推进而动态提升,证明了只有组内模式上下文自适应参数相互结合才能最大化推测解码的效率。

One More Thing

另外,有消息称,月之暗面即将完成新一轮融资,融资金额将高达数亿美元。

本轮融资一旦完成,该公司估值将提升至40亿美元



目前月之暗面正在积极与IDG Capital等在内的投资机构进行融资洽谈,其中潜在投资方还包括现有股东腾讯

消息还称,预期计划将在今年年底前完成该轮融资,并在明年下半年启动IPO进程

参考链接:
[1]https://x.com/rohanpaul_ai/status/1992315143665881432?s=20
[2]https://arxiv.org/abs/2511.14617
[3]https://cn.wsj.com/articles/chinas-moonshot-ai-raising-fresh-funds-that-could-value-it-at-about-4-billion-0216a228

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
中国平安2025年扣非净利润显著增长22.5% 现金分红489亿元连续14年上涨

中国平安2025年扣非净利润显著增长22.5% 现金分红489亿元连续14年上涨

财联社
2026-03-26 18:05:05
兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

花小猫的美食日常
2026-03-26 07:41:46
特斯拉 Model 3 标准版要来了!配置太离谱

特斯拉 Model 3 标准版要来了!配置太离谱

花果科技
2026-03-25 16:23:07
“公路闪电”终于换代,但我觉得不如丰田

“公路闪电”终于换代,但我觉得不如丰田

差评XPIN
2026-03-26 09:57:20
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

坠入二次元的海洋
2026-03-26 18:16:38
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
美国必胜?哈佛专家:不要高估中国,美国已经控制了中国的命脉

美国必胜?哈佛专家:不要高估中国,美国已经控制了中国的命脉

探史
2026-03-25 08:59:36
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

每日经济新闻
2026-03-26 20:18:05
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

鲸探所长
2026-03-24 14:38:04
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
2026-03-26 21:52:50
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
手机
时尚
健康

艺术要闻

哪一座桥不是风景?

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

上新|| 她们说,找到了自己的人生裙子!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版