网易首页 > 网易号 > 正文 申请入驻

稳定训练、数据高效,清华大学提出「流策略」新方法SAC Flow

0
分享至



本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN,再用 GRU 门控和 Transformer Decoder 两套速度参数化。SAC FLow 在 MuJoCo、OGBench、Robomimic 上达到了极高的数据效率和显著 SOTA 的性能。

作者来自于清华大学和 CMU,通讯作者为清华大学教授丁文伯和于超,致力于强化学习算法和具身智能研究。

研究背景

流策略(Flow-based policy)最近在机器人学习领域十分热门:它具有建模多峰动作分布的表达能力,且比扩散策略更简洁好用,因此被广泛应用于先进的 VLA 模型,例如 π_0、GR00T 等。想要跳出数据集的约束,进一步提高流策略的性能,强化学习是一条有效的路,已经有不少工作尝试用 on-policy 的 RL 算法训练流策略,例如 ReinFlow [1]、 Flow GRPO [2] 等。但当我们使用数据高效的 off-policy RL(例如 SAC )训练流策略时总会出现崩溃,因为流策略的动作经历「K 步采样」推理,因此反向传播的「深度」等于采样步数 K。这与训练经典 RNN 时遇到的梯度爆炸或梯度消失是相同的。

不少已有的类似工作都选择绕开了这个问题:要么用替代目标避免对流策略多步采样的过程求梯度 (如 FlowRL [3]),要么把流匹配模型蒸馏成单步模型,再用标准 off-policy 目标训练 (如 QC-FQL [4])。这样做是稳定了训练,但也抛弃了原本表达更强的流策略本体,并没有真正在训练一个流策略。而我们的思路是:发现流策略多部采样本质就是 sequential model ,进而用先进的 sequential model 结构来稳住训练,直接在 off-policy 框架内端到端优化真实的流策略。



使用 off policy RL 算法训练流策略会出现梯度爆炸。本文提出,我们不妨换一个视角来看,训练流策略等效于在训练一个 RNN 网络(循环计算 K 次),因此我们可以用更高效现代的循环结构(例如 GRU,Transformer)。



  • 论文链接:https://arxiv.org/abs/2509.25756
  • 项目网站:https://sac-flow.github.io/
  • 代码仓库:https://github.com/Elessar123/SAC-FLOW

核心思想:Flow rollout ≈ Residual RNN



  • Flow-G(GRU,gated velocity) :给速度网络加上 GRU 风格的门控结构 ,自适应决定「保留当前动作」还是「写入新动作」,抑制梯度放大。
  • Flow-T(Transformer, decoded velocity) :用 Transformer decoder 对「动作 - 时间 token」做 state-only cross-attention + 预归一残差 FFN ,每一步都在全局 state 语境下稳态细化;保持 Markov 性,不做时间位点之间的自回归混合。



流策略的速度网络参数化方式,从 sequential model 的视角进行展示。

对应的速度网络参数化



我们的方法:SAC Flow

1.让 SAC 真正能训练流策略:noise-augmented 对数似然



2.两种训练范式都能用

  • From-scratch :对于 dense-reward 任务,SAC flow 可以 from scratch 直接训练。



训练伪代码如下:



实验结果:稳定、快速、样本效率高!



在 From-scratch 条件下,我们主要测试了 Mujoco 的环境上的表现。Flow-G 和 Flow-T 达到了 SOTA 的性能水平。同时可以发现,在稀疏奖励任务中,from-scratch 是不够的,需要使用 offline pretrain。



Offline-to-online 训练结果。其中灰色背景下的前 1e6 step 是 offline 训练,后 1e6 steps 是 online 微调。

From-scratch

  • SAC Flow-T / Flow-G 在 Hopper、Walker2D、HalfCheetah、Ant、Humanoid、HumanoidStandup 上稳定更快收敛 ,最终回报更高。
  • 相比扩散策略基线(如 DIME 、QSM ),Flow -based 方法普遍收敛更快。在此基础上,SAC Flow 进一步超过 FlowRL (因为 FlowRL 使用 Wasserstein 约束限制了性能)。
  • 在最难的 sparse-reward 任务中(如 Robomimic-Can、OGBench-Cube-Double),从零探索仍然很难,这也说明了offline-to-online 训练的必要性。

Offline-to-online

  • 在 OGBench 的 Cube-Triple / Quadruple 等高难度任务中,SAC Flow-T 收敛更快,整体成功率领先或持平现有 off-policy 基线(FQL、QC-FQL )。
  • 在 Robomimic benchmark 中,我们使用了较大的正则化约束限制,因此 SAC Flow 的表达能力受到限制,表现与 QC-FQL 接近。但在同等在线数据量下,我们的表现依然优于 on-policy 的基线算法 ReinFlow。

消融实验:

1.稳定梯度,防止梯度爆炸

直接用 SAC 微调流策略(Naive SAC Flow),其梯度范数在反传路径上呈现爆炸趋势(绿色)。而Flow-G / Flow-T的梯度范数保持平稳(橙色、紫色)。对应地,SAC Flow-T 和 Flow-G 的性能显著更优。



(a)不同采样步上的梯度范数。(b) from-scratch 训练中, Ant 环境下如果直接用 SAC 训练流策略,会导致训练崩溃。(c) 在 offline-to-online 训练中,直接 SAC 训练流策略依然效率较低,不够稳定。

2.对采样步数鲁棒

SAC Flow 对 K (采样步数)是鲁棒的:在 K=4/7/10 条件下都能稳定训练。其中 Flow-T 对采样深度的鲁棒性尤其强。



与类似工作的核心区别

  • FlowRL 使用 Wasserstein-2 约束的替代目标。与之相比,SAC Flow 则直接端到端优化标准 SAC loss,避免「目标 - 模型错位」。
  • DIME / QSM 等扩散策略方法同样使用了替代目标。
  • FQL / QC-FQL 则把流策略首先蒸馏单步模型,然后再做 off-policy RL。相比之下,SAC Flow 不需要蒸馏为单步模型,保留了流模型的建模能力。

什么时候用 Flow-G?什么时候用 Flow-T?

  • Flow-G :参数量更小、结构更简洁,在需要快速收敛或计算预算有限的场景。
  • Flow-T :当环境更复杂、需要更强的条件建模和深度时,Flow-T 的稳定性和上限更好。

结语

SAC Flow 的关键词只有三个:序列化 、稳定训练、数据高效。把流策略视作序列模型,进而能够用 GRU / Transformer 的成熟经验稳定梯度回传。加上一些辅助技巧,我们可以直接使用 off-policy RL 的代表算法 SAC 来训练流策略,从而实现数据高效、更快、更稳的收敛。后续,我们将继续推动 SAC-flow 在真实机器人上的效果验证,提升 sim-to-real 的鲁棒性。

参考文献:

[1] Zhang, Tonghe, et al. "ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning." arXiv preprint arXiv:2505.22094 (2025).

[2] Liu, Jie, et al. "Flow-grpo: Training flow matching models via online rl." arXiv preprint arXiv:2505.05470 (2025).

[3] Lv, L., Li, Y., Luo, Y., Sun, F., Kong, T., Xu, J., & Ma, X. (2025). Flow-Based Policy for Online Reinforcement Learning.arXiv preprint arXiv:2506.12811.

[4] Li, Q., Zhou, Z., & Levine, S. (2025). Reinforcement learning with action chunking.arXiv preprint arXiv:2507.07969.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泽连斯基没说谎,俄乌打了四年,乌军确实只有5.5万人阵亡。

泽连斯基没说谎,俄乌打了四年,乌军确实只有5.5万人阵亡。

百态人间
2026-02-13 15:14:03
米兰冬奥奖牌榜:25国获牌,挪威扩大优势,我国连续三天没获奖牌

米兰冬奥奖牌榜:25国获牌,挪威扩大优势,我国连续三天没获奖牌

湘楚风云
2026-02-16 11:46:10
塔利班表态:美若攻伊,将全力配合伊朗,预言伊朗必胜

塔利班表态:美若攻伊,将全力配合伊朗,预言伊朗必胜

老马拉车莫少装
2026-02-16 08:08:23
是滕光正的种?孙怡又怀孕了?在济州岛被偶遇,小腹隆起脸型圆润

是滕光正的种?孙怡又怀孕了?在济州岛被偶遇,小腹隆起脸型圆润

八卦王者
2026-02-15 10:52:14
曾被吹捧上天,如今却沦为笑柄的6个坑人物品,大家别再买了!

曾被吹捧上天,如今却沦为笑柄的6个坑人物品,大家别再买了!

室内设计师有料儿
2025-12-27 17:07:20
俄外长拉夫罗夫:俄将以军事手段应对格陵兰岛“军事化”

俄外长拉夫罗夫:俄将以军事手段应对格陵兰岛“军事化”

澎湃新闻
2026-02-12 12:29:03
戴旭:中国的战士有近30年没打仗了,建议在外部挑衅的时候打一下

戴旭:中国的战士有近30年没打仗了,建议在外部挑衅的时候打一下

音乐时光的娱乐
2026-02-17 00:31:23
2025年爆火的8位网红,个个火得莫名其妙,个个赚得盆满钵满

2025年爆火的8位网红,个个火得莫名其妙,个个赚得盆满钵满

距离距离
2026-01-04 15:25:42
成吉思汗打败花剌子模时,俘虏女人50万,后来是如何处置的?

成吉思汗打败花剌子模时,俘虏女人50万,后来是如何处置的?

铭记历史呀
2026-02-11 12:13:17
两战33+8决赛都没进!被巴恩斯绝杀低头沮丧 文班亚马遭东约坑哭

两战33+8决赛都没进!被巴恩斯绝杀低头沮丧 文班亚马遭东约坑哭

颜小白的篮球梦
2026-02-16 10:02:08
你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

带你感受人间冷暖
2026-02-12 00:05:09
全红婵穿中国红,稳得让人心疼又敬佩!大家觉得呢?

全红婵穿中国红,稳得让人心疼又敬佩!大家觉得呢?

眼界看视野
2026-02-16 16:02:24
60岁郭富城拼了!王一博全开麦炸场,这舞台谁服谁?

60岁郭富城拼了!王一博全开麦炸场,这舞台谁服谁?

心屿漫谈
2026-02-16 21:45:32
50亿打水漂?只剩两户人家!国内最大“空城”古镇,看得人心发慌

50亿打水漂?只剩两户人家!国内最大“空城”古镇,看得人心发慌

GA环球建筑
2025-12-25 10:53:33
放心吧,我们不是日本,也不会有“失去的三十年”

放心吧,我们不是日本,也不会有“失去的三十年”

六爷阿旦
2026-01-19 17:10:26
美国前总统老布什之子喊话:我访华150多次,中国根本没有敌意

美国前总统老布什之子喊话:我访华150多次,中国根本没有敌意

扶苏聊历史
2026-02-03 09:31:52
Lisa萝莉岛演唱会视角曝光,她被曝曾在岛上,伺候权贵和资本大佬

Lisa萝莉岛演唱会视角曝光,她被曝曾在岛上,伺候权贵和资本大佬

花哥扒娱乐
2026-02-10 18:44:40
关于陈熠的实力,那些评价还真不是瞎传,全是有依据的事实。

关于陈熠的实力,那些评价还真不是瞎传,全是有依据的事实。

小光侃娱乐
2026-01-19 08:35:05
夫妻性生活的“黄金时长”是多少?别再被电影骗了!

夫妻性生活的“黄金时长”是多少?别再被电影骗了!

精彩分享快乐
2025-11-29 00:00:03
销量暴跌33%!从年货顶流到无人问津,中国人为啥就不爱吃糖了?

销量暴跌33%!从年货顶流到无人问津,中国人为啥就不爱吃糖了?

鲸探所长
2026-01-28 22:49:13
2026-02-17 04:51:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12313文章数 142567关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

数码
房产
艺术
手机
游戏

数码要闻

iPhone17e来了!苹果官宣春季发布会:3月4日晚上十点

房产要闻

三亚新机场,又传出新消息!

艺术要闻

名家笔下话过年,别有风味!

手机要闻

3月4日晚上10点见:苹果发布新品邀请函,向马年春节献礼

PS发布会压轴!《战神》新作只有近30人白金

无障碍浏览 进入关怀版