网易首页 > 网易号 > 正文 申请入驻

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已开源

0
分享至

机器之心报道

编辑:冷猫

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统,使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,我们也做了相关报道。

  • 论文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
  • 代码地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo

中国科学技术大学校友,伊利诺伊大学香槟分校博士,微软研究院的首席研究员刘力源、清华大学校友,加州大学圣地亚哥分校计算机科学与工程学院博士生姚峰团队在强化学习的研究中更进一步。

该团队发现,在 DAPO-32B 中,rollout 生成是强化学习训练的主要瓶颈,占据了约 70% 的总训练时间。因此,该团队从 rollout 阶段着手,将 8 bit 量化技术应用于 rollout 生成,并通过 TIS 技术在保持下游性能的同时实现了显著加速。

众所周知,FP8 能让强化学习运行得更快,但往往以性能下降为代价。

刘力源、姚峰团队推出FlashRL,是首个开源且可用的强化学习实现方案,在推理执行(rollout)阶段应用 INT8/FP8,并且在性能上与 BF16 持平,没有性能损失。该团队在博客中完整发布了该方法的技术细节。

  • 博客标题:FlashRL: 8Bit Rollouts, Full Power RL
  • 博客地址:https://fengyao.notion.site/flash-rl
  • 代码地址:https://github.com/yaof20/Flash-RL

Rollout 量化可能会降低性能

如图 1 和图 2 中 「⋅⋅⋅⋅⋅」 曲线所示,在未使用 TIS 技术的情况下,采用 FP8 或 INT8 进行 rollout 量化,相比 BF16 rollout 会带来显著的性能下降。

这一现象是预期中的,因为 rollout–训练之间的差异被放大了:rollout 是从量化策略 π_int8 采样的,但梯度却是基于高精度策略 π_bf16 计算的。

这种不匹配会使强化学习过程更加偏离策略,从而削弱强化学习训练的有效性。

图 1 左图:吞吐量加速比。FP8 结果在 H100 上测试;INT8 结果分别在 H100 和 A100 上测试。结果基于不同的响应长度和设备测得。右图:Qwen2.5-32B 模型在使用 BF16 rollout 与 INT8 rollout 时的 AIME 准确率对比。所有实验均采用 BF16 FSDP 训练后端。

FlashRL 的独门秘诀

FlashRL 是首个开源且可用的强化学习方案,能够在不牺牲下游性能的前提下使用量化 rollout。

那么,它的「独门秘诀」是什么呢?

解决 Rollout–训练不匹配问题

该团队引入了截断重要性采样(Truncated Importance Sampling,TIS)来减轻 rollout 与训练之间的差距。正如图 1 和图 2 中的实线所示,TIS 使量化 - rollout 训练的性能达到了与采用 TIS 的 BF16 rollout 训练相同的水平 —— 甚至超过了未使用 TIS 的朴素 BF16 rollout 训练。

作者团队之前发表过有关 TIS 的技术博客,感兴趣的读者可以参考:

  • 博客标题:Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
  • 博客链接:https://fengyao.notion.site/off-policy-rl

在这里简单展示一下 TIS 的工作原理。

支持在线量化

现有的推理引擎(如 vLLM)针对大语言模型推理服务进行了优化,但在支持带参数更新的模型量化方面能力有限。该团队提供了 Flash-LLM-RL 包,对 vLLM 进行了补丁,使其能够支持这一功能。

如图所示,FlashRL 的 INT8 可带来高达 1.7 倍的吞吐量提升,同时保持 RL 的优势。此外,如果不使用 TIS 而使用 naive FP8/INT8 ,性能将显著下降。

图 2 左图与中图:在使用量化 rollout 生成的强化学习大语言模型训练中,GSM8K 的准确率表现。请注意,TIS 对缓解分布差异至关重要。右图:π_fsdp 与 π_vllm 之间的 KL 散度。需要注意的是,INT8 rollout 的 KL 散度大于 FP8 rollout 的 KL 散度。

FlashRL 能有多快?

比较在强化学习训练中采用不同 rollout 精度的吞吐量并不简单,因为模型会不断更新,对于同一个查询,不同的量化策略在经过一定的 RL 训练迭代后可能会生成长度不同的回复。

这里将探讨 FlashRL 所实现的加速效果及其对训练效果的影响。

Rollout 加速表现

常规环境下的加速:

研究团队记录了在 7B、14B 和 32B Deepseek-R1-Distill-Qwen 模型上使用 INT8、FP8 和 BF16 精度的 rollout 吞吐量。

图 1 显示了 8 位量化模型相对于 BF16 的加速比。对于较小的 7B 模型,加速比不足 1.2×;而在 32B 模型上,加速比可达 1.75×。这表明量化对大模型的收益远高于小模型。基于分析结果,团队建议仅在模型规模超过 140 亿参数时使用量化

内存受限环境下的加速:

研究团队还评估了在标准推理场景(不涉及 RL)下,采用 8 位量化所能带来的吞吐量提升。具体而言,团队测量了 INT8 的加速比,作为压力测试,用于验证其在 A100/A6000 和 H100 GPU 上的适用性。

使用 vLLM 在相同数据集上分别服务 BF16 与 INT8 量化版本的 Deepseek-R1-Distill-Qwen-32B 模型,并在 A100/A6000 和 H100 GPU 上记录其吞吐量。

图 3 在 4 种仅推理配置下,INT8 量化的 Deepseek-R1-Distill-Qwen-32B 相对于 BF16 的吞吐量加速比,测量结果涵盖不同回复长度。

如图 3 所示,当 GPU 内存成为瓶颈时,量化能够带来极高的加速比—— 在 TP2-A6000 配置下生成速度提升超过 3 倍,在 TP1-A100 配置下提升甚至超过 5 倍。这突显了量化在 GPU 内存受限场景(如服务更大规模模型)中的巨大潜力。

端到端加速与效果验证

研究团队将 FlashRL 部署于 DAPO-32B 的训练中,以验证所提方法的有效性。由于在图 2 中 FP8 相比 INT8 拥有更小的分布差距,特意选择 INT8 作为更具挑战性的测试场景。

图 4 展示了在 BF16 与 INT8 rollout 下的下游性能与训练加速效果。两种配置在 AIME 基准上的准确率相当,但 INT8 显著提高了训练速度。

这些结果证明,FlashRL 能在不牺牲训练效果的前提下,实现显著的训练加速

图 4. 左图:使用 BF16 与 INT8 rollout 精度进行强化学习训练的下游性能对比。右图:BF16 与 INT8 rollout 在单位小时内可完成的更新步数。所有实验均基于 DAPO 配方,在 Qwen2.5-32B 模型上进行,训练 250 步,硬件配置为 4 个节点、每节点配备 8 张 H100 GPU。

快速使用

使用 FlashRL 只需一条命令! 使用 pip install flash-llm-rl 进行安装,并将其应用于你自己的 RL 训练,无需修改你的代码。

FlashRL 方法支持 INT8 和 FP8 量化,兼容最新的 H100 GPU 以及较老的 A100 GPU。

更多方法细节,请参阅原博客。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全员到岗不准请假缺席,国民党下甲级动员令,要和赖清德决一死战

全员到岗不准请假缺席,国民党下甲级动员令,要和赖清德决一死战

叮当当科技
2026-04-20 12:12:58
武汉市武昌区政府副区长,区公安分局局长徐舫拟提名为市州副市州长人选

武汉市武昌区政府副区长,区公安分局局长徐舫拟提名为市州副市州长人选

观星赏月
2026-04-20 18:26:12
随着巴黎圣日耳曼爆大冷门1-2,法甲最新积分榜出炉:争冠白热化

随着巴黎圣日耳曼爆大冷门1-2,法甲最新积分榜出炉:争冠白热化

侧身凌空斩
2026-04-20 07:55:12
世锦赛战报:中国2胜2负!丁俊晖“老虎发威”,世界第5连丢5局

世锦赛战报:中国2胜2负!丁俊晖“老虎发威”,世界第5连丢5局

不写散文诗
2026-04-20 15:14:30
小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

极目新闻
2026-04-19 22:39:27
斯诺克世锦赛:丁俊晖送大礼!吉尔伯特被罚12分逆转,仅2-3落后

斯诺克世锦赛:丁俊晖送大礼!吉尔伯特被罚12分逆转,仅2-3落后

刘姚尧的文字城堡
2026-04-19 19:17:56
西方正酝酿一个可怕的共识:对华战争,可突破道德底线与伦理原则

西方正酝酿一个可怕的共识:对华战争,可突破道德底线与伦理原则

Ck的蜜糖
2026-04-20 19:02:28
今日凌晨济州出发邮轮发生坠海事故!20多岁中国男子下落不明…

今日凌晨济州出发邮轮发生坠海事故!20多岁中国男子下落不明…

奋斗在韩国
2026-04-20 13:35:06
全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

橙星文娱
2026-04-18 16:42:58
“说好给2000,他给10元”:2011年75岁男子睡33岁女人拒付钱被杀

“说好给2000,他给10元”:2011年75岁男子睡33岁女人拒付钱被杀

汉史趣闻
2026-04-18 15:19:07
中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

新华社
2026-04-20 17:44:02
美军突然在海上开火,革命卫队火速出兵,立刻对美国军舰发起反击

美军突然在海上开火,革命卫队火速出兵,立刻对美国军舰发起反击

军机Talk
2026-04-20 18:13:46
打7000万美元给送盒饭给老人的机构,然后一声不吭! 离开贝佐斯后,她一直在各种悄悄送钱....

打7000万美元给送盒饭给老人的机构,然后一声不吭! 离开贝佐斯后,她一直在各种悄悄送钱....

英国那些事儿
2026-04-19 23:07:22
德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

毒sir财经
2026-04-19 22:12:53
季后赛G1总结:仅活塞遭下克上+湖人赢9分最少 分差创历史第四高

季后赛G1总结:仅活塞遭下克上+湖人赢9分最少 分差创历史第四高

醉卧浮生
2026-04-20 12:05:52
美国在霍尔木兹截停中国油轮 中方回应

美国在霍尔木兹截停中国油轮 中方回应

极目新闻
2026-04-20 15:50:46
南京熊猫通信科技有限公司被暂停全军物资工程服务采购活动资格

南京熊猫通信科技有限公司被暂停全军物资工程服务采购活动资格

齐鲁壹点
2026-04-20 20:06:03
Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

新浪财经
2026-04-20 15:28:47
张雪回应:820RR爆缸是发动机问题,换新车还是退钱,车主选!

张雪回应:820RR爆缸是发动机问题,换新车还是退钱,车主选!

哄动一时啊
2026-04-18 19:39:31
停止焦虑最好的办法,不是读书,不是运动,而是……

停止焦虑最好的办法,不是读书,不是运动,而是……

壹心理
2026-04-19 11:03:36
2026-04-20 20:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12811文章数 142632关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

家居
数码
健康
房产
公开课

家居要闻

自然慢调 慢享时光

数码要闻

存在致死风险!1.8万台PC电源召回:呼吁用户立即停用

干细胞抗衰4大误区,90%的人都中招

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版