网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow

0
分享至



作者简介:本文第一作者为卡耐基梅隆大学机器人所研究生 Tonghe Zhang,主要研究方向为机器人操作大模型和全身控制算法。合作者为德克萨斯大学奥斯汀分校博士生 Sichang Su, 研究方向为强化学习和通用机器人策略。指导教师是清华大学和北京中关村学院的 Chao Yu 教授以及清华大学 Yu Wang 教授。



想要进一步增强开源 VLA 模型的能力,除了增加数据多样性,强化学习也是一种高度有效的方法。来自卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校的研究团队提出了一个用于微调流匹配策略的在线强化学习框架 ReinFlow, 该工作已被 NeurIPS 2025 接收,并开源了详细的复现教程,包括代码、训练权重、和训练结果。



  • 论文标题:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
  • 论文链接:https://arxiv.org/abs/2505.22094
  • 项目主页:https://reinflow.github.io
  • 开源资源(代码、模型、数据、W&B 训练记录)https://github.com/ReinFlow/ReinFlow

ReinFlow 的算法特点

  • 理论基础:基于策略梯度理论推导,将确定性流转换为离散时间马尔可夫过程,直接优化整条流匹配链;
  • 训练高效:相比 DPPO 节省 60% 以上训练时间,支持少步甚至单步推理;
  • 实验验证:在多个基准任务上相较预训练模型取得了显著性能提升;
  • 复现友好:提供完整训练教程、数据集、检查点、WandB 指标,支持许多 legged locomotion 和 manipulation benchmark, 以及在 SimplerEnv 中使用规模化并行仿真微调模型。

ReinFlow 核心原理

ReinFlow 是一个针对常微分方程策略的通用策略梯度算法。想要进行策略梯度优化,首先要设法获取动作的边缘概率分布 。对于流匹配模型而言,这与推理时动作生成的机理相关。流匹配策略每一步推理时进行了如下步骤:





如果使用流匹配的理论公式,我们可以计算流策略的最终动作的似然函数。但是由于流匹配动作通过积分来定义,这个方法计算相当复杂,而且存在估计噪声,并不适合于强化学习。那么有没有办法可以简单获得流匹配策略推理时候的似然函数呢?其实可以, 但是要做一些小改动

流匹配模型的推理是一个马尔科夫过程。如果我们贮存所有的中间动作,虽然难以获得最终动作的最终动作的边缘分布,但是可以用链式法则获得扩散链条的联合概率分布:



但是由于使用常微分方程进行积分,预训练流匹配模型的每步转移概率都是狄拉克函数, 据此仍然无法导出数值稳定的计算公式。因此,在 ReinFlow 中,我们向流策略的确定性路径中注入少量可学习的噪声,将其转移过程改回一个随机的扩散过程:



其中,第一项是预训练得到的速度,对应随机微分方程的漂移项;第二项是端到端训练的噪声注入网络,对应微分方程的扩散项。这样,由于相邻扩散步的转移概率都是高斯分布,流匹配的联合概率便可以被严格计算出来:



好消息是,我们的研究表明利用联合概率也可以进行策略梯度优化。根据如下定理,我们可以使用多种经典的策略梯度方法对流匹配策略进行强化学习。



虽然引入噪声改变了流匹配模型的轨迹,但是我们把噪声控制到较小范围内,以减少与预训练策略的偏离,防止微调时性能大幅受损。但同时,我们也为噪声设置强度下限,以鼓励适当的探索。另外,ReinFlow 虽然引入了额外的噪声网络,但是其参数量远小于预训练的速度场,并且与之共用视觉特征:这样可以减少微调时带来的额外开销。

任务评测

ReinFlow 是一个通用的框架。原理上,ReinFlow 可以适用于所有常微分方程定义的策略,比如 Rectified Flow 和 Shortcut Models,甚至支持极少步数下,如 1,2,4 步时的推理。而且,更新公式可以适用于几乎所有强化学习梯度算法,比如 PPO。

足式运动控制

在 D4RL 足式运动控制任务中,ReinFlow 微调后的 Rectified Flow 策略取得了平均 135.36% 的净性能增长。与当前的扩散 RL 微调方法 DPPO 相比,ReinFlow 在保持类似性能的同时,可以极大减少扩散步骤,从而节省了微调所用的 82.63% 的墙钟时间



长程操作任务

在接收稀疏奖励和高维输入的操作任务中(Franka Kitchen、Robomimic) ,ReinFlow 微调的 Shortcut Model 策略在 4 步甚至 1 步去噪的情况下,比预训练模型平均净增了 40.34% 的成功率。其性能与使用 DPPO 微调的 DDIM 策略相当,但训练时间平均节省 23.20%





VLA + 大规模并行强化学习





消融实验

研究团队进行了详细的消融研究,研究以下因素对训练结果的影响:

1. 数据扩展 vs RL 微调:实验显示仅靠增加数据或推理步数较快达到性能瓶颈,而 RL 微调能进一步提升性能。

2. 时间采样策略:ReinFlow 对均匀、Logit-normal 和 Beta 分布等多种时间采样方式都表现良好的性能。

3. 噪声条件和大小:同时以状态和时间为条件生成噪声,有助于产生更多样化的动作。噪声过小训练会陷入瓶颈,一定阈值后可以探索的新策略。

4. 熵正则化:可以进一步促进探索。





保姆级开源

ReinFlow 的 GitHub 项目已经全面开源,并在积极维护中。欢迎通过邮件或 GitHub 与作者交流。项目包含了:

完整代码库

  • 支持 Rectified Flow、Shortcut Models 等多种流模型;
  • 涵盖 OpenAI Gym(D4RL)、Franka Kitchen、Robomimic 等多个经典 RL 环境;
  • 详细的安装指南和使用教程。

模型 Checkpoints

  • 提供所有实验的预训练模型;
  • 包含行为克隆和 RL 微调后的权重;
  • 支持一键加载和评估。

WandB 指标

  • 公开所有实验的训练曲线(损失、奖励、学习率等);
  • 可直接访问:https://wandb.ai/reinflow/projects;
  • 便于社区下载基线和本方法测试结果,进行公平验证和对比。

详尽文档

  • 完整复现实验的步骤:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
  • 复现论文图表的指南:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
  • 关键超参数说明:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
  • 添加自定义数据集 / 环境:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
  • 常见问题解答:https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md

未来展望

ReinFlow 将在未来公布更多结果,包括:

  • 发布更多大型视觉语言模型微调结果;
  • 支持用在线 RL 微调 Mean Flow;
  • 研究如何使用该方法进行 sim2real 和真机强化学习微调。

欢迎大家关注!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
章泽天,还真听劝

章泽天,还真听劝

基本常识
2026-02-28 22:37:11
加拿大皇家银行:欧佩克+基本都已达到最大产能 油价突破每桶100美元是明显威胁

加拿大皇家银行:欧佩克+基本都已达到最大产能 油价突破每桶100美元是明显威胁

财联社
2026-03-01 11:14:09
媒体人:中国男篮是一支很难执教的球队,信心像玻璃一样易碎

媒体人:中国男篮是一支很难执教的球队,信心像玻璃一样易碎

懂球帝
2026-03-01 17:37:06
特朗普称他心中已有可执掌伊朗政权的“合适人选”

特朗普称他心中已有可执掌伊朗政权的“合适人选”

台州交通广播
2026-03-01 10:54:31
最高院:合同仅盖公章无法定代表人或授权代表签字的,是否有效?

最高院:合同仅盖公章无法定代表人或授权代表签字的,是否有效?

周军律师聊案子
2026-02-21 09:44:03
国民党宜兰初选结果揭晓,败选的张胜德喊话民众:送吴宗宪入县府

国民党宜兰初选结果揭晓,败选的张胜德喊话民众:送吴宗宪入县府

海峡导报社
2026-02-28 17:10:03
7-1!霍金斯六连鞭斩获争冠先机,利索夫斯基恐无缘威尔士赛首冠

7-1!霍金斯六连鞭斩获争冠先机,利索夫斯基恐无缘威尔士赛首冠

世界体坛观察家
2026-03-02 00:03:17
她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

琴声飞扬
2026-02-22 15:21:45
8.7分,年度最佳!想向全人类推荐这部剧

8.7分,年度最佳!想向全人类推荐这部剧

吐槽电影院
2026-02-27 15:08:55
14座美军基地被炸穿!伊朗越打越猛,战争已完全超出美国掌控

14座美军基地被炸穿!伊朗越打越猛,战争已完全超出美国掌控

音乐时光的娱乐
2026-03-01 13:23:50
当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

LULU生活家
2026-01-16 18:51:53
无锡二院!你要火了!

无锡二院!你要火了!

无锡eTV全媒体
2026-03-01 11:46:51
白发长哪里,病就藏哪里!别不信,你的身体早已通过白发向你“报警”!

白发长哪里,病就藏哪里!别不信,你的身体早已通过白发向你“报警”!

环球网资讯
2026-02-01 08:57:23
打了1461天,泽连斯基要走人了?他留给乌克兰的只剩遍地废墟

打了1461天,泽连斯基要走人了?他留给乌克兰的只剩遍地废墟

消费侠
2026-02-28 16:12:44
阿森纳本赛季英超已利用角球打入15球,差1球就追平历史纪录

阿森纳本赛季英超已利用角球打入15球,差1球就追平历史纪录

懂球帝
2026-03-02 01:05:13
特朗普竟然第一时间回应了朝鲜的表态

特朗普竟然第一时间回应了朝鲜的表态

娱乐小可爱蛙
2026-03-02 00:45:34
火箭输给热:乌度卡又输斯波教练

火箭输给热:乌度卡又输斯波教练

张佳玮写字的地方
2026-03-01 08:31:49
1936年,江清和唐纳的结婚照,看江清的长相,有点不一样

1936年,江清和唐纳的结婚照,看江清的长相,有点不一样

人间颂
2025-12-16 12:12:08
迪拜国际机场遭袭

迪拜国际机场遭袭

财联社
2026-03-01 05:34:14
伊朗对美交底不到一天,中国明确表态,哈梅内伊让步但设一个底线

伊朗对美交底不到一天,中国明确表态,哈梅内伊让步但设一个底线

爱上孤独s
2026-03-01 11:46:49
2026-03-02 03:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

游戏
教育
家居
公开课
军事航空

以《生化危机》命名?Capcom解答对RE引擎的误读

教育要闻

11年,学生平均增高5.52厘米!成都这所小学,登上教育部发布会

家居要闻

素色肌理 品意式格调

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版