网易首页 > 网易号 > 正文 申请入驻

月之暗面公开RL训练加速方法:训练速度暴涨97%,长尾延迟狂降93%

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

u1s1,现在模型能力是Plus了,但Rollout阶段的速度却越来越慢……

于是月之暗面出手了:爆改RL训练速度,让LLM“越跑越快”!



最近月之暗面联合清华大学提出了全新的加速引擎Seer,能够在不改变核心训练算法的前提下,大幅度提升LLM的强化学习训练速度。



依托组内上下文设计,可实现同步RL的Rollout效率提升74%~97%,长尾延迟减少75%~93%

好好好,几乎是模型换代式的效率提升。



下面来康康详细内容。

跑得更快、更省资源

强化学习目前已成为推动LLM发展的核心技术,但现有系统面临着严重的性能瓶颈。

具体来说,就是在端到端迭代过程中,生成阶段(rollout phase)会耗费大量的时间资源,然而该阶段受固有工作负载不均衡的影响,存在明显的长尾延迟问题,且资源利用率较低。



因此研究团队针对性推出了高效同步RL框架Seer

其核心架构包括三大模块:

1、推理引擎池(Inference Engine Pool)

基于DRAM/SSD构建,包括多个推理实例与跨节点的全局KVCache池,不仅可以支持负载均衡,又能通过KVCache池复用中间数据,避免重复计算。

2、请求缓冲区(Request Buffer)

作为所有rollout请求的统一入口,负责维护请求的全量元数据(包括组ID、提示词长度、原始最大生成长度、已生成长度等),并管理请求状态(未调度/处理中/已完成片段),实现资源的精细化调度。

3、上下文管理器(Context Manager)

负责维护所有请求的上下文视图,并基于上下文信号生成调度决策。

另外,Seer还引入了三项关键技术,包括用于动态负载均衡的分段生成、上下文感知调度以及自适应分组推测解码,协同降低长尾延迟和提高资源利用效率。

技术一:分段生成(Divided Rollout)

针对内存波动与负载失衡,Seer提出“精细化分段+全局KVCache支撑” 的解决方案。

首先是将GRPO中隶属同一提示词的响应拆解为多个独立请求,再将每个请求按照生成长度进一步拆分为多个片段。

然后重新回到请求缓冲区,更新已生成长度,等待后续调度直到生成原始最大长度。

同时为避免重新调度时的提示词编码重计算,Seer复用全局KVCache池,将每个片段的中间数据都存储在共享池中。

这样就能在片段迁移到新实例时,直接从共享池中读取KVCache,而无需重新编码提示词,大幅降低迁移开销。

技术二:上下文感知调度(Context-Aware Scheduling)

为了解决调度失衡、长请求延迟导致的长尾问题,Seer使用“先探路+后调度”的策略。

先为每个提示词组指定第一个响应为投机请求(speculative request),优先获取该组的长度特征,再基于特征调度剩余请求,避免长请求被保留到最后。

技术三:自适应分组推测解码(Adaptive Grouped Speculative Decoding)

由于传统推测解码依赖静态小模型生成草稿,无法适配RL中目标模型的迭代更新,Seer利用组内响应模式相似的特性,通过DGDS(分布式分组草稿服务器)聚合组内所有响应的token序列,构建动态模式参考库。



然后基于参考库生成草稿,就能削减额外模型开销,并随着组内响应的增加进一步提升草稿质量。

最终依靠三者的协同作用,既能保障同步RL的算法保真度,又可从内存、调度、推理三个维度全面优化rollout效率。

实验验证

为了验证系统性能,研究团队选取MoonlightQwen2-VL-72BKimi-K2三个模型,均采用GRPO算法训练,并将veRL(同步RL系统,支持训练与rollout协同部署)作为基线系统进行对比。



在端到端性能验证上,实验结果发现Seer在不同工作负载中均实现性能突破,其中吞吐量可提升74%~97%,显著高于veRL,且稳定性更强。

而veRL的长尾延迟则相当严重,例如在Moonlight任务中,veRL最后10%请求需耗时3984秒(占总时长约50%),而Seer仅需364秒,长尾延迟可实现降低85%。



此外,Qwen2-VL-72B任务中可降低93%,Kimi-K2任务降低75%。

研究团队还对Seer的核心创新点(上下文感知调度、分组推测解码)进行了专项实验。

先是在Qwen2-VL-72B任务的第5次迭代中,设置三组对比:

  • No-Context:仅分段生成,无长度预测。
  • Context-Aware:Seer的调度策略。
  • Oracle:提前知道所有请求的真实长度,执行理想LFS调度。



结果表明,在吞吐量上Context-Aware可达到Oracle的95%,远高于No-Context;在长尾延迟上,Context-Aware也仅为No-Context的13%,接近Oracle。

说明基于组内长度上下文的调度,虽无法达到理想Oracle水平,但已能大幅缓解长尾问题,且无需提前知道真实长度,实用性较强。

然后同样是在Qwen2-VL-72B任务中,设置四组对比推测解码的有效性:

  • No-SD:无推测解码。
  • No-Context:有推测解码,但不聚合组内模式。
  • No-Adapt:有组模式,但固定推测参数。
  • Seer:完整分组推测解码。



结果显示,Seer在吞吐量上远高于No-Context与No-Adapt,Seer的接受长度也随rollout推进而动态提升,证明了只有组内模式上下文自适应参数相互结合才能最大化推测解码的效率。

One More Thing

另外,有消息称,月之暗面即将完成新一轮融资,融资金额将高达数亿美元。

本轮融资一旦完成,该公司估值将提升至40亿美元



目前月之暗面正在积极与IDG Capital等在内的投资机构进行融资洽谈,其中潜在投资方还包括现有股东腾讯

消息还称,预期计划将在今年年底前完成该轮融资,并在明年下半年启动IPO进程

参考链接:
[1]https://x.com/rohanpaul_ai/status/1992315143665881432?s=20
[2]https://arxiv.org/abs/2511.14617
[3]https://cn.wsj.com/articles/chinas-moonshot-ai-raising-fresh-funds-that-could-value-it-at-about-4-billion-0216a228

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国男篮重大喜讯,日本队宣布最新决定,郭士强有望打爆小日子

中国男篮重大喜讯,日本队宣布最新决定,郭士强有望打爆小日子

宗介说体育
2026-01-15 14:28:52
贸易规则变了!欧盟启动CPTPP对话,一场迟来的自救能否成功?

贸易规则变了!欧盟启动CPTPP对话,一场迟来的自救能否成功?

安珈使者啊
2026-01-15 14:19:30
惨败!亚历山大20+4裁判引争议,申京14+13,杜兰特19+7全队最低

惨败!亚历山大20+4裁判引争议,申京14+13,杜兰特19+7全队最低

篮球看比赛
2026-01-16 12:24:55
自治区应急管理厅党委书记、副厅长俱伟接受纪律审查和监察调查

自治区应急管理厅党委书记、副厅长俱伟接受纪律审查和监察调查

澎湃新闻
2026-01-16 10:32:26
郑丽文亮明关键态度!两岸统一不是选择题,而是必答题

郑丽文亮明关键态度!两岸统一不是选择题,而是必答题

兴史兴谈
2026-01-15 11:42:40
中国队八强遇卫冕冠军!历史全败,四强梦恐碎

中国队八强遇卫冕冠军!历史全败,四强梦恐碎

篮球看比赛
2026-01-16 11:32:21
香港有线新闻男主播接受男友求婚,主播好友一同见证

香港有线新闻男主播接受男友求婚,主播好友一同见证

TVB剧评社
2026-01-14 18:32:50
为什么不能去干涉别人的因果?网友:我30多了才明白这个道理

为什么不能去干涉别人的因果?网友:我30多了才明白这个道理

带你感受人间冷暖
2026-01-11 00:05:11
猪肚炖得对,药铺关门睡!学会炖一锅,胃病、湿气都怕它!别不懂

猪肚炖得对,药铺关门睡!学会炖一锅,胃病、湿气都怕它!别不懂

江江食研社
2026-01-15 07:30:08
全世界最狠的骗局,莫过于贷款买房。

全世界最狠的骗局,莫过于贷款买房。

流苏晚晴
2026-01-08 18:18:57
日本刚赴美邀功,后遭美国重锤,180天后交不出稀土,等着被宰吧

日本刚赴美邀功,后遭美国重锤,180天后交不出稀土,等着被宰吧

军机Talk
2026-01-16 11:57:27
村里2家种大棚蔬菜的,这几年都陆续得"癌症"了,可命搭进去谁管

村里2家种大棚蔬菜的,这几年都陆续得"癌症"了,可命搭进去谁管

三农雷哥
2026-01-15 09:10:56
本拉登被击毙后,为何24小时内就被紧急海葬?多年后才知其中真相

本拉登被击毙后,为何24小时内就被紧急海葬?多年后才知其中真相

素年文史
2025-12-26 10:05:33
热血的2-1,白卓璇吼声中掀翻排名高555位的对手,爆冷进澳网正赛

热血的2-1,白卓璇吼声中掀翻排名高555位的对手,爆冷进澳网正赛

篮球看比赛
2026-01-16 11:23:03
聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

好贤观史记
2026-01-16 11:32:24
把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

懂球帝
2026-01-16 07:53:07
英超最强前腰诞生!1亿欧新星20轮仅2球2助,却成利物浦争冠希望

英超最强前腰诞生!1亿欧新星20轮仅2球2助,却成利物浦争冠希望

锐评利物浦
2026-01-15 23:56:48
突发!国乒名将官宣退役,28岁结束8年国家队生涯

突发!国乒名将官宣退役,28岁结束8年国家队生涯

最爱乒乓球
2026-01-16 00:08:22
一个做饭习惯,增加全家致癌风险!尤其是孩子!

一个做饭习惯,增加全家致癌风险!尤其是孩子!

医路向前巍子
2026-01-14 14:37:27
中方高规格接待,卡尼赴京吃晚宴,现场安排特殊,交易迎来窗口期

中方高规格接待,卡尼赴京吃晚宴,现场安排特殊,交易迎来窗口期

博览历史
2026-01-15 18:53:55
2026-01-16 13:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176359关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

艺术
教育
本地
家居
军事航空

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

教育要闻

“我们是驴吗?”小学老师晒学校午餐,学校餐饮管理引深思

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

岁月柔情 现代品质轻奢

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版