网易首页 > 网易号 > 正文 申请入驻

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已开源

0
分享至



机器之心报道

编辑:冷猫

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统,使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,我们也做了相关报道。



  • 论文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
  • 代码地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo

中国科学技术大学校友,伊利诺伊大学香槟分校博士,微软研究院的首席研究员刘力源、清华大学校友,加州大学圣地亚哥分校计算机科学与工程学院博士生姚峰团队在强化学习的研究中更进一步。

该团队发现,在 DAPO-32B 中,rollout 生成是强化学习训练的主要瓶颈,占据了约 70% 的总训练时间。因此,该团队从 rollout 阶段着手,将 8 bit 量化技术应用于 rollout 生成,并通过 TIS 技术在保持下游性能的同时实现了显著加速。

众所周知,FP8 能让强化学习运行得更快,但往往以性能下降为代价。

刘力源、姚峰团队推出FlashRL,是首个开源且可用的强化学习实现方案,在推理执行(rollout)阶段应用 INT8/FP8,并且在性能上与 BF16 持平,没有性能损失。该团队在博客中完整发布了该方法的技术细节。



  • 博客标题:FlashRL: 8Bit Rollouts, Full Power RL
  • 博客地址:https://fengyao.notion.site/flash-rl
  • 代码地址:https://github.com/yaof20/Flash-RL

Rollout 量化可能会降低性能

如图 1 和图 2 中 「⋅⋅⋅⋅⋅」 曲线所示,在未使用 TIS 技术的情况下,采用 FP8 或 INT8 进行 rollout 量化,相比 BF16 rollout 会带来显著的性能下降。

这一现象是预期中的,因为 rollout–训练之间的差异被放大了:rollout 是从量化策略 π_int8 采样的,但梯度却是基于高精度策略 π_bf16 计算的。



这种不匹配会使强化学习过程更加偏离策略,从而削弱强化学习训练的有效性。



图 1 左图:吞吐量加速比。FP8 结果在 H100 上测试;INT8 结果分别在 H100 和 A100 上测试。结果基于不同的响应长度和设备测得。右图:Qwen2.5-32B 模型在使用 BF16 rollout 与 INT8 rollout 时的 AIME 准确率对比。所有实验均采用 BF16 FSDP 训练后端。

FlashRL 的独门秘诀

FlashRL 是首个开源且可用的强化学习方案,能够在不牺牲下游性能的前提下使用量化 rollout。

那么,它的「独门秘诀」是什么呢?

解决 Rollout–训练不匹配问题

该团队引入了截断重要性采样(Truncated Importance Sampling,TIS)来减轻 rollout 与训练之间的差距。正如图 1 和图 2 中的实线所示,TIS 使量化 - rollout 训练的性能达到了与采用 TIS 的 BF16 rollout 训练相同的水平 —— 甚至超过了未使用 TIS 的朴素 BF16 rollout 训练。

作者团队之前发表过有关 TIS 的技术博客,感兴趣的读者可以参考:



  • 博客标题:Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
  • 博客链接:https://fengyao.notion.site/off-policy-rl

在这里简单展示一下 TIS 的工作原理。



支持在线量化

现有的推理引擎(如 vLLM)针对大语言模型推理服务进行了优化,但在支持带参数更新的模型量化方面能力有限。该团队提供了 Flash-LLM-RL 包,对 vLLM 进行了补丁,使其能够支持这一功能。

如图所示,FlashRL 的 INT8 可带来高达 1.7 倍的吞吐量提升,同时保持 RL 的优势。此外,如果不使用 TIS 而使用 naive FP8/INT8 ,性能将显著下降。



图 2 左图与中图:在使用量化 rollout 生成的强化学习大语言模型训练中,GSM8K 的准确率表现。请注意,TIS 对缓解分布差异至关重要。右图:π_fsdp 与 π_vllm 之间的 KL 散度。需要注意的是,INT8 rollout 的 KL 散度大于 FP8 rollout 的 KL 散度。

FlashRL 能有多快?

比较在强化学习训练中采用不同 rollout 精度的吞吐量并不简单,因为模型会不断更新,对于同一个查询,不同的量化策略在经过一定的 RL 训练迭代后可能会生成长度不同的回复。

这里将探讨 FlashRL 所实现的加速效果及其对训练效果的影响。

Rollout 加速表现

常规环境下的加速:

研究团队记录了在 7B、14B 和 32B Deepseek-R1-Distill-Qwen 模型上使用 INT8、FP8 和 BF16 精度的 rollout 吞吐量。

图 1 显示了 8 位量化模型相对于 BF16 的加速比。对于较小的 7B 模型,加速比不足 1.2×;而在 32B 模型上,加速比可达 1.75×。这表明量化对大模型的收益远高于小模型。基于分析结果,团队建议仅在模型规模超过 140 亿参数时使用量化

内存受限环境下的加速:

研究团队还评估了在标准推理场景(不涉及 RL)下,采用 8 位量化所能带来的吞吐量提升。具体而言,团队测量了 INT8 的加速比,作为压力测试,用于验证其在 A100/A6000 和 H100 GPU 上的适用性。

使用 vLLM 在相同数据集上分别服务 BF16 与 INT8 量化版本的 Deepseek-R1-Distill-Qwen-32B 模型,并在 A100/A6000 和 H100 GPU 上记录其吞吐量。



图 3 在 4 种仅推理配置下,INT8 量化的 Deepseek-R1-Distill-Qwen-32B 相对于 BF16 的吞吐量加速比,测量结果涵盖不同回复长度。

如图 3 所示,当 GPU 内存成为瓶颈时,量化能够带来极高的加速比—— 在 TP2-A6000 配置下生成速度提升超过 3 倍,在 TP1-A100 配置下提升甚至超过 5 倍。这突显了量化在 GPU 内存受限场景(如服务更大规模模型)中的巨大潜力。

端到端加速与效果验证

研究团队将 FlashRL 部署于 DAPO-32B 的训练中,以验证所提方法的有效性。由于在图 2 中 FP8 相比 INT8 拥有更小的分布差距,特意选择 INT8 作为更具挑战性的测试场景。

图 4 展示了在 BF16 与 INT8 rollout 下的下游性能与训练加速效果。两种配置在 AIME 基准上的准确率相当,但 INT8 显著提高了训练速度。

这些结果证明,FlashRL 能在不牺牲训练效果的前提下,实现显著的训练加速



图 4. 左图:使用 BF16 与 INT8 rollout 精度进行强化学习训练的下游性能对比。右图:BF16 与 INT8 rollout 在单位小时内可完成的更新步数。所有实验均基于 DAPO 配方,在 Qwen2.5-32B 模型上进行,训练 250 步,硬件配置为 4 个节点、每节点配备 8 张 H100 GPU。

快速使用

使用 FlashRL 只需一条命令! 使用 pip install flash-llm-rl 进行安装,并将其应用于你自己的 RL 训练,无需修改你的代码。

FlashRL 方法支持 INT8 和 FP8 量化,兼容最新的 H100 GPU 以及较老的 A100 GPU。



更多方法细节,请参阅原博客。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
毛泽东四渡赤水最奇在于:有一个不能说的真相,他自始至终没透露

毛泽东四渡赤水最奇在于:有一个不能说的真相,他自始至终没透露

小港哎历史
2025-12-20 14:15:03
医生提醒:慎买慎吃!里面含大量防腐剂,常吃伤肝伤肾

医生提醒:慎买慎吃!里面含大量防腐剂,常吃伤肝伤肾

健康科普365
2026-01-01 08:25:13
司晓迪爆料30岁睡遍顶流,檀健次林更新私生活引讨论

司晓迪爆料30岁睡遍顶流,檀健次林更新私生活引讨论

君笙的拂兮
2026-01-03 23:57:35
一张假脸连累整部剧?多位戏骨也拯救不了口碑,满脸横肉让人出戏

一张假脸连累整部剧?多位戏骨也拯救不了口碑,满脸横肉让人出戏

小老头奇闻
2026-01-02 00:15:07
美国人造假马杜罗审讯,梅德韦丘克被抓一幕记得很清楚

美国人造假马杜罗审讯,梅德韦丘克被抓一幕记得很清楚

坚果甜瓜
2026-01-04 00:32:18
丢掉幻想 美西方见不得一个统一强大的中国

丢掉幻想 美西方见不得一个统一强大的中国

看看新闻Knews
2026-01-02 23:02:35
现在的局面,美国还能忍多久?

现在的局面,美国还能忍多久?

羊2004
2024-02-19 17:01:17
江苏27名考古专家被捕,白天护墓晚上盗墓,追缴文物堆成山!

江苏27名考古专家被捕,白天护墓晚上盗墓,追缴文物堆成山!

陈博世财经
2026-01-03 17:18:19
和亲家同住7天,我幡然醒悟:给儿女攒百万家产不如帮她看清3件事

和亲家同住7天,我幡然醒悟:给儿女攒百万家产不如帮她看清3件事

荷兰豆爱健康
2026-01-02 15:35:23
哥们儿娶个俄罗斯媳妇,酒后吐真言:晚上睡觉像搂着小刺猬

哥们儿娶个俄罗斯媳妇,酒后吐真言:晚上睡觉像搂着小刺猬

芭比衣橱
2026-01-03 04:25:56
总参军训部撤销,升格成副战区级单位,末任部长政委是咋安排的?

总参军训部撤销,升格成副战区级单位,末任部长政委是咋安排的?

史座y
2025-12-15 18:53:52
国乒博士陈幸同晒最新写真,梳妆打扮后大家才感叹原来她也很美

国乒博士陈幸同晒最新写真,梳妆打扮后大家才感叹原来她也很美

凤幻洋
2026-01-03 16:57:08
若你存在有这些特征,说明你认知深度远超别人!

若你存在有这些特征,说明你认知深度远超别人!

金沛的国学笔记
2025-12-24 15:08:47
2026年上半年,命运翻页,开始真正顺起来的三个星座

2026年上半年,命运翻页,开始真正顺起来的三个星座

小晴星座说
2025-12-30 17:29:32
天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

扬子晚报
2026-01-03 17:01:43
海南封关运作后,就相当于中国版的新加坡正式上线了。

海南封关运作后,就相当于中国版的新加坡正式上线了。

流苏晚晴
2025-12-21 16:05:12
大蒜在超市里不发芽,为什么拿回家后就会发芽?超市员工道出实情

大蒜在超市里不发芽,为什么拿回家后就会发芽?超市员工道出实情

妙招酷
2025-12-30 23:11:35
机关事业人员注意:退休前突击晋职级,养老金未必能“提一档”!

机关事业人员注意:退休前突击晋职级,养老金未必能“提一档”!

小小包工头阿汾
2026-01-02 12:56:10
西安事变真相披露:为了保护蒋介石7位子侄阵亡,双方死伤超600人

西安事变真相披露:为了保护蒋介石7位子侄阵亡,双方死伤超600人

磊子讲史
2025-12-30 15:29:22
2026-01-04 03:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12033文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

家居
时尚
教育
本地
房产

家居要闻

无形有行 自然与灵感诗意

好美啊!58岁的她开挂了

教育要闻

初二是分水岭,不是许愿池

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

无障碍浏览 进入关怀版