网易首页 > 网易号 > 正文 申请入驻

攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习的训练效率,实在是太低了!

随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,强化学习(RL)无疑是那把最关键的密钥。

然而,这场竞赛的背后,一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理,RL训练更像一个效率低下的“手工作坊”,投入巨大但产出缓慢

其中,占据超过80%时间的Rollout(响应生成)阶段,由于其内存带宽限制和自回归特性,成为了整个AI基础设施中公认的阿喀琉斯之踵。

如何攻克这块AI基建的最后高地?现在,上海交通大学与字节跳动研究团队给出了一个全新的答案。

该团队联手推出的RhymeRL,从一个被忽视的现象入手,巧妙地将历史数据变废为宝,在不牺牲精度的前提下,将RL训练吞吐量提升了2.6倍

模型生成的答案存在两大“历史相似性”

该研究团队深入分析了大量RL训练过程,发现在相邻的两个训练周期中,尽管模型权重已经更新,但对于同一个问题(Prompt),模型生成的答案(Rollout)存在两大“历史相似性”:

第一,序列相似性

新答案“继承”了旧答案的思路,高达95%的历史Token都可以直接复用。

第二,长度分布相似性

上一轮里,哪些问题让模型“思来想去”,这一轮大概率依旧如此。响应长度的排序惊人地稳定。

该研究团队认为,这种相似性,主要源于PPO/GRPO等主流RL算法为了保证训练稳定而采用的梯度裁剪(Clipping)机制,它让模型的进化变得平滑而有迹可循。

这就好比一个学生,虽然每天都在进步,但他解决同一类型问题的思考路径和草稿篇幅,在短期内是高度相似的。

既然如此,历史的旧草稿能否成为新一轮学习的模版?

针对Rollout阶段的低效现状,提出新框架RhymeRL

基于这一洞察,RhymeRL框架应运而生

针对Rollout阶段的低效现状,它包含两大核心利器:

HistoSpecHistoPipe



RhymeRL的核心设计示意图

HistoSpec

传统的Rollout,是一个Token一个Token往外蹦的自回归过程,速度慢且GPU利用率较低。

而HistoSpec独创性地将投机解码(Speculative Decoding)技术引入RL,它不再需要一个额外的小模型来“猜”草稿,而是直接把上一轮的历史响应作为“最佳剧本”

这就像开卷考试,你提前拿到了去年的标准答案作为参考。

  1. 起草(Draft):直接从历史响应中巧妙地总结出树状草稿。
  2. 验证(Verify):将整段草稿一次性扔给大模型,通过单次前向传播,并行验证所有Token的正确性,然后“接收”所有匹配的部分。

由于历史序列的超高相似性,草稿的接受率极高。

这使得计算过程从逐字生成变成了“批量验证”,计算密度飙升,打破了内存带宽的枷锁,让单个响应的生成速度实现了质的飞跃。



HistoSpec采用的基于树的历史响应管理,实现了草稿的高速、准确生成

HistoPipe

仅仅让单个响应变快还不够。

在批处理中,不同任务的响应长度不一,短任务总要等待长任务,导致大量GPU资源被闲置,产生了巨大的“空泡”(Bubble)

HistoPipe是一位具有前瞻性的调度大师,它的目标是:

  • 榨干每一滴GPU算力,实现无空泡的完美流水线。

基于“长度分布相似性”的洞察,HistoPipe不再强求单一步内实现负载均衡,而是玩起了“跨步互补”——在奇数步,让所有GPU由短到长处理任务;在偶数步,则反过来,由长到短处理。

这样一来,上一步因为处理长任务而拖慢的GPU,在下一步会优先处理短任务,完美填补了时间差。

通过这种巧妙的削峰填谷,HistoPipe将整个集群的资源浪费降至最低



HistoPipe的流水线设计,通过跨步互补调度实现了无空泡调度

2.6倍加速,精度无损

当模板HistoSpec遇上调度大师HistoPipe,产生反应是惊人的——实验结果表明,在数学、代码等任务上,RhymeRL相比于基础系统取得了大幅性能提升,端到端训练吞吐量提升高达2.61倍

这意味着,研究者和企业可以用更少的资源、在更短的时间内,完成更强大的模型训练,极大地加速了AI技术迭代的步伐。

RhymeRL的重要意义在于,它提出了一种新的强化学习范式——基于历史信息来端到端地加速强化学习效率。

强化学习不是简单的推理与训练的拼接,通过深入剖析其任务特性,RhymeRL能够充分发挥系统统筹调度能力与底层硬件的算力资源,同时无损地适配各种已有的训练算法。

arXiv链接:
https://www.arxiv.org/abs/2508.18588

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
飞虎队”再现乌克兰天空,美国撕下面具强行干涉匈牙利大选

飞虎队”再现乌克兰天空,美国撕下面具强行干涉匈牙利大选

史政先锋
2026-02-17 20:22:20
癌症的“源头”已发现?咸菜没上榜,第1名大家或天天都在吃!

癌症的“源头”已发现?咸菜没上榜,第1名大家或天天都在吃!

蜉蝣说
2026-02-17 18:10:04
女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

黄河新闻网吕梁频道
2026-02-18 15:07:20
《身体疼痛对照表》很难得!(建议收藏)

《身体疼痛对照表》很难得!(建议收藏)

诗词天地
2026-02-12 01:37:57
中国队大捷添2金1铜金牌榜升5位 将挑战都灵成绩冲击队史第三佳绩

中国队大捷添2金1铜金牌榜升5位 将挑战都灵成绩冲击队史第三佳绩

劲爆体坛
2026-02-18 22:26:20
农村生儿子太重要!重庆网友称突然发现过年,都是男孩子往家里赶

农村生儿子太重要!重庆网友称突然发现过年,都是男孩子往家里赶

火山詩话
2026-02-18 16:11:21
中国队首枚金牌!苏翊鸣改写历史,冬奥会最新奖牌榜:中国升第16

中国队首枚金牌!苏翊鸣改写历史,冬奥会最新奖牌榜:中国升第16

侃球熊弟
2026-02-18 19:55:41
中国男篮拒绝输球!全新阵容亮相,郭士强变阵,央视直播

中国男篮拒绝输球!全新阵容亮相,郭士强变阵,央视直播

体坛瞎白话
2026-02-18 10:00:14
日本妹子发现自己拥有「超能力」,网友表示:确实震撼,但这有啥用...

日本妹子发现自己拥有「超能力」,网友表示:确实震撼,但这有啥用...

日本窗
2026-02-18 13:30:20
霍启山带娜然游意大利,旁边还站着霍震霆,春节见家长疑好事将近

霍启山带娜然游意大利,旁边还站着霍震霆,春节见家长疑好事将近

叭叭叭卦娱乐
2026-02-18 17:25:01
日网友:苏翊鸣夺金韩媒再也不能嘲笑中国队了 他的教练是佐藤康弘

日网友:苏翊鸣夺金韩媒再也不能嘲笑中国队了 他的教练是佐藤康弘

劲爆体坛
2026-02-18 21:42:16
在一派喜庆祥和当中,漏了一把凶光

在一派喜庆祥和当中,漏了一把凶光

美第奇效应
2026-02-17 08:01:36
乔欣素颜晒拜年照穿红衣皮肤超白,婚房内景意外泄露太奢华

乔欣素颜晒拜年照穿红衣皮肤超白,婚房内景意外泄露太奢华

日落于西
2026-02-18 19:03:13
伊朗突然作起死来了...

伊朗突然作起死来了...

西楼饮月
2026-02-18 23:02:15
热议海港平蔚山:中超开放外援会比现在强;魏震表现让人欣喜

热议海港平蔚山:中超开放外援会比现在强;魏震表现让人欣喜

懂球帝
2026-02-18 21:42:43
马年春晚的沈腾像极了2012年的赵本山,挥一挥衣袖,作别春晚舞台

马年春晚的沈腾像极了2012年的赵本山,挥一挥衣袖,作别春晚舞台

姜大叔侃球
2026-02-18 23:13:00
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
3-1!泰山中场大将2妙传助球队逆转,球迷呼吁邵佳一招他进国家队

3-1!泰山中场大将2妙传助球队逆转,球迷呼吁邵佳一招他进国家队

体坛鉴春秋
2026-02-18 10:51:15
轰30+3+5!请把球给哈登,米切尔赛后动情发声,他已经等了7年

轰30+3+5!请把球给哈登,米切尔赛后动情发声,他已经等了7年

巴叔GO聊体育
2026-02-18 10:49:11
丁勇岱除夕陪妈过年,89岁母亲一人住北京,母子睡客厅1.3米小床

丁勇岱除夕陪妈过年,89岁母亲一人住北京,母子睡客厅1.3米小床

观察鉴娱
2026-02-18 18:03:25
2026-02-19 00:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12179文章数 176386关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

本地
健康
手机
房产
游戏

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

转头就晕的耳石症,能开车上班吗?

手机要闻

央视春晚首度将手机纳入舞台主镜头阵列,华为Mate 80系列唯一手机设备完成竖屏直播

房产要闻

三亚新机场,又传出新消息!

GTA6别大意!前R星动画师:这款3A可能偷走年度游戏

无障碍浏览 进入关怀版