网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow

0
分享至



作者简介:本文第一作者为卡耐基梅隆大学机器人所研究生 Tonghe Zhang,主要研究方向为机器人操作大模型和全身控制算法。合作者为德克萨斯大学奥斯汀分校博士生 Sichang Su, 研究方向为强化学习和通用机器人策略。指导教师是清华大学和北京中关村学院的 Chao Yu 教授以及清华大学 Yu Wang 教授。



想要进一步增强开源 VLA 模型的能力,除了增加数据多样性,强化学习也是一种高度有效的方法。来自卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校的研究团队提出了一个用于微调流匹配策略的在线强化学习框架 ReinFlow, 该工作已被 NeurIPS 2025 接收,并开源了详细的复现教程,包括代码、训练权重、和训练结果。



  • 论文标题:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
  • 论文链接:https://arxiv.org/abs/2505.22094
  • 项目主页:https://reinflow.github.io
  • 开源资源(代码、模型、数据、W&B 训练记录)https://github.com/ReinFlow/ReinFlow

ReinFlow 的算法特点

  • 理论基础:基于策略梯度理论推导,将确定性流转换为离散时间马尔可夫过程,直接优化整条流匹配链;
  • 训练高效:相比 DPPO 节省 60% 以上训练时间,支持少步甚至单步推理;
  • 实验验证:在多个基准任务上相较预训练模型取得了显著性能提升;
  • 复现友好:提供完整训练教程、数据集、检查点、WandB 指标,支持许多 legged locomotion 和 manipulation benchmark, 以及在 SimplerEnv 中使用规模化并行仿真微调模型。

ReinFlow 核心原理

ReinFlow 是一个针对常微分方程策略的通用策略梯度算法。想要进行策略梯度优化,首先要设法获取动作的边缘概率分布 。对于流匹配模型而言,这与推理时动作生成的机理相关。流匹配策略每一步推理时进行了如下步骤:





如果使用流匹配的理论公式,我们可以计算流策略的最终动作的似然函数。但是由于流匹配动作通过积分来定义,这个方法计算相当复杂,而且存在估计噪声,并不适合于强化学习。那么有没有办法可以简单获得流匹配策略推理时候的似然函数呢?其实可以, 但是要做一些小改动

流匹配模型的推理是一个马尔科夫过程。如果我们贮存所有的中间动作,虽然难以获得最终动作的最终动作的边缘分布,但是可以用链式法则获得扩散链条的联合概率分布:



但是由于使用常微分方程进行积分,预训练流匹配模型的每步转移概率都是狄拉克函数, 据此仍然无法导出数值稳定的计算公式。因此,在 ReinFlow 中,我们向流策略的确定性路径中注入少量可学习的噪声,将其转移过程改回一个随机的扩散过程:



其中,第一项是预训练得到的速度,对应随机微分方程的漂移项;第二项是端到端训练的噪声注入网络,对应微分方程的扩散项。这样,由于相邻扩散步的转移概率都是高斯分布,流匹配的联合概率便可以被严格计算出来:



好消息是,我们的研究表明利用联合概率也可以进行策略梯度优化。根据如下定理,我们可以使用多种经典的策略梯度方法对流匹配策略进行强化学习。



虽然引入噪声改变了流匹配模型的轨迹,但是我们把噪声控制到较小范围内,以减少与预训练策略的偏离,防止微调时性能大幅受损。但同时,我们也为噪声设置强度下限,以鼓励适当的探索。另外,ReinFlow 虽然引入了额外的噪声网络,但是其参数量远小于预训练的速度场,并且与之共用视觉特征:这样可以减少微调时带来的额外开销。

任务评测

ReinFlow 是一个通用的框架。原理上,ReinFlow 可以适用于所有常微分方程定义的策略,比如 Rectified Flow 和 Shortcut Models,甚至支持极少步数下,如 1,2,4 步时的推理。而且,更新公式可以适用于几乎所有强化学习梯度算法,比如 PPO。

足式运动控制

在 D4RL 足式运动控制任务中,ReinFlow 微调后的 Rectified Flow 策略取得了平均 135.36% 的净性能增长。与当前的扩散 RL 微调方法 DPPO 相比,ReinFlow 在保持类似性能的同时,可以极大减少扩散步骤,从而节省了微调所用的 82.63% 的墙钟时间



长程操作任务

在接收稀疏奖励和高维输入的操作任务中(Franka Kitchen、Robomimic) ,ReinFlow 微调的 Shortcut Model 策略在 4 步甚至 1 步去噪的情况下,比预训练模型平均净增了 40.34% 的成功率。其性能与使用 DPPO 微调的 DDIM 策略相当,但训练时间平均节省 23.20%





VLA + 大规模并行强化学习





消融实验

研究团队进行了详细的消融研究,研究以下因素对训练结果的影响:

1. 数据扩展 vs RL 微调:实验显示仅靠增加数据或推理步数较快达到性能瓶颈,而 RL 微调能进一步提升性能。

2. 时间采样策略:ReinFlow 对均匀、Logit-normal 和 Beta 分布等多种时间采样方式都表现良好的性能。

3. 噪声条件和大小:同时以状态和时间为条件生成噪声,有助于产生更多样化的动作。噪声过小训练会陷入瓶颈,一定阈值后可以探索的新策略。

4. 熵正则化:可以进一步促进探索。





保姆级开源

ReinFlow 的 GitHub 项目已经全面开源,并在积极维护中。欢迎通过邮件或 GitHub 与作者交流。项目包含了:

完整代码库

  • 支持 Rectified Flow、Shortcut Models 等多种流模型;
  • 涵盖 OpenAI Gym(D4RL)、Franka Kitchen、Robomimic 等多个经典 RL 环境;
  • 详细的安装指南和使用教程。

模型 Checkpoints

  • 提供所有实验的预训练模型;
  • 包含行为克隆和 RL 微调后的权重;
  • 支持一键加载和评估。

WandB 指标

  • 公开所有实验的训练曲线(损失、奖励、学习率等);
  • 可直接访问:https://wandb.ai/reinflow/projects;
  • 便于社区下载基线和本方法测试结果,进行公平验证和对比。

详尽文档

  • 完整复现实验的步骤:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
  • 复现论文图表的指南:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
  • 关键超参数说明:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
  • 添加自定义数据集 / 环境:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
  • 常见问题解答:https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md

未来展望

ReinFlow 将在未来公布更多结果,包括:

  • 发布更多大型视觉语言模型微调结果;
  • 支持用在线 RL 微调 Mean Flow;
  • 研究如何使用该方法进行 sim2real 和真机强化学习微调。

欢迎大家关注!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一男子把郎酒灌入茅台瓶,拿去找行家鉴定,结果鉴定为真品

江苏一男子把郎酒灌入茅台瓶,拿去找行家鉴定,结果鉴定为真品

涛哥美食汇
2026-01-15 09:03:28
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
特朗普计划“斩首”哈梅内伊!伊朗称24小时研发核弹?

特朗普计划“斩首”哈梅内伊!伊朗称24小时研发核弹?

项鹏飞
2026-01-12 19:41:25
不装了,拼多多再造了一个拼多多。

不装了,拼多多再造了一个拼多多。

纯洁的微笑
2026-01-15 12:19:58
特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

兴史兴谈
2026-01-15 09:12:46
再次单场送出6血帽!完爆浙江顶级内线,球迷:他可以替换周琦了

再次单场送出6血帽!完爆浙江顶级内线,球迷:他可以替换周琦了

南海浪花
2026-01-15 08:20:15
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
撤换吴宗宪?郑丽文最新任命曝光,张亚中被重用,侯友宜直接露馅

撤换吴宗宪?郑丽文最新任命曝光,张亚中被重用,侯友宜直接露馅

卷史
2026-01-14 19:39:49
流落中国的外国公主,如今拒绝回国:我是中国人,中国就是我的家

流落中国的外国公主,如今拒绝回国:我是中国人,中国就是我的家

鹤羽说个事
2026-01-05 11:05:27
离婚3年后,31岁董子健再次官宣喜讯,已是孙怡高攀不起的存在!

离婚3年后,31岁董子健再次官宣喜讯,已是孙怡高攀不起的存在!

素衣读史
2026-01-14 14:06:44
98年儿子被打死只赔3万,父亲用炸弹为儿复仇,法官判决出乎意料

98年儿子被打死只赔3万,父亲用炸弹为儿复仇,法官判决出乎意料

谈史论天地
2026-01-08 17:25:03
伟大的2-0,吴易昺进澳网正赛,中国男网4人出战创历史,狂揽70万

伟大的2-0,吴易昺进澳网正赛,中国男网4人出战创历史,狂揽70万

越岭寻踪
2026-01-15 12:46:24
郭德纲穿LV已经是最低调的了!现身一酒厂,个子不高感觉没有1米6

郭德纲穿LV已经是最低调的了!现身一酒厂,个子不高感觉没有1米6

乐悠悠娱乐
2026-01-15 09:49:27
殷桃两套大片美出圈!深V性感与浅蓝清新切换,46岁身材状态绝了

殷桃两套大片美出圈!深V性感与浅蓝清新切换,46岁身材状态绝了

章眽八卦
2025-12-20 12:29:42
辽宁男篮VS新疆!杨鸣拒绝3连败,赵继伟确定出战,央视直播

辽宁男篮VS新疆!杨鸣拒绝3连败,赵继伟确定出战,央视直播

体坛瞎白话
2026-01-15 08:22:30
陪嫁金条掉色,租的别墅,新娘厅官父亲、模特母亲是花钱雇的演员

陪嫁金条掉色,租的别墅,新娘厅官父亲、模特母亲是花钱雇的演员

诗意世界
2026-01-02 10:15:30
王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

猫叔东山再起
2026-01-15 10:55:03
1972年,175位将军复出没人要,各大军区纷纷甩锅,周总理这招绝了

1972年,175位将军复出没人要,各大军区纷纷甩锅,周总理这招绝了

寄史言志
2026-01-08 18:02:14
张学良到了晚年才吐露心声:我这辈子从来不信迷信,然而在老虎厅除掉杨宇霆之后,我却不得不改变想法

张学良到了晚年才吐露心声:我这辈子从来不信迷信,然而在老虎厅除掉杨宇霆之后,我却不得不改变想法

清风鉴史
2025-12-26 17:05:13
美专家:中国不可怕,可怕的是中国塔里木盆地下藏着地下海洋!

美专家:中国不可怕,可怕的是中国塔里木盆地下藏着地下海洋!

青烟小先生
2025-11-28 21:22:03
2026-01-15 13:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12121文章数 142536关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

时尚
本地
家居
教育
游戏

最时髦的单品,难道不是背肌吗?

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

自在自宅 个性自由

教育要闻

航海类专业赢麻了!交通运输部2025拟录697人,多名专科生上岸

COD跌出前五!25年PS商店畅销榜被体育游戏统治

无障碍浏览 进入关怀版