网易首页 > 网易号 > 正文 申请入驻

告别多步去噪!清华团队推出MVP,实现机器人动作单步极速生成

0
分享至



生成式策略(如 Diffusion Policy 和 Flow Matching)在强化学习中展现了强大的多模态分布拟合能力,但其多步迭代采样带来的高延迟一直是实时控制的痛点。

清华大学智能驾驶课题组 iDLab,加州大学伯克利分校人工智能研究院 BAIR在ICLR 2026 (Oral, Top 1%)联合发表的最新研究成果《Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation》:突破生成式强化学习的效率与质量瓶颈,实现最快最好的单步动作生成。该研究工作由清华大学博士生占国建和陶乐天在李升波教授指导下完成。



  • 论文标题:Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
  • 论文链接:https://openreview.net/forum?id=mIeKe74W43

本文最新研究成果MVP (Mean Velocity Policy):提出了一种建模均值速度场(Mean Velocity Field)的新型生成式策略。该方法通过引入瞬时速度约束(IVC)作为关键的边界条件,解决了均值流学习中的解不唯一性问题,并且设计了复合生成与选择机制,确保在线强化学习过程中策略 “步步变强”。MVP 实现了极致的单步生成 —— 从噪声直接映射到动作,彻底消除了迭代计算开销。在 Robomimic 和 OGBench 等高难度具身智能基准测试中,MVP 不仅取得了 SOTA 的成功率,更在训练和推理速度上实现了数量级的提升。

背景:生成式强化学习的效率与质量瓶颈


在具身智能(Embodied AI)和机器人控制领域,面对复杂的任务,最优动作往往呈现多模态分布(Multimodal Distribution)。传统的单高斯策略难以应对,而基于扩散模型(Diffusion)或流匹配(Flow Matching)的生成式策略虽然表达能力强,但通常依赖几十甚至上百步的迭代去噪,导致推理延迟极高,难以满足机器人高频控制的实时性要求。为了提高推理速度,字节跳动、加州伯克利等团队曾尝试通过大步长离散化或单步蒸馏等技术进行优化,但往往不可避免地以牺牲生成质量为代价,陷入了速度与精度难以两全的瓶颈。

核心问题出现了:我们能否在保持流模型强大表达能力的同时,直接实现一步到位的动作生成?

MVP 给出的答案是肯定的。相比于传统方法学习 “瞬时速度” 逐步生成动作,MVP 学习的是 “均值速度”,这使得它能够直接跨越时间步,一步生成目标动作。

核心贡献:MVP—— 兼具生成式策略的 “高表达能力” 与单步生成的 “高时间效率”。

技术一:瞬时速度约束锚定,精确极速的均值流策略


传统的 Flow Matching 往往受限于 “步步为营”:它学习的是某一时刻的瞬时速度,导致推理时必须像欧拉积分那样多步逼近。而 MVP 另辟蹊径,直接建模时间区间内的均值速度。这种设计允许网络直接学习如何 “跨越时间”,在推理阶段实现从初始噪声到目标动作的单步跳跃,真正做到了 “一步即终点”。

然而,单纯学习均值速度存在一个致命的理论困局:由于缺乏明确的边界条件,描述均值速度的常微分方程(ODE)存在无穷多组解。这会导致神经网络在训练时陷入不确定性,产生严重的拟合偏差。

为了破局,该研究引入了瞬时速度约束(Instantaneous Velocity Constraint, IVC)作为 “定海神针”:

1.物理直觉:在时间间隔趋于零的极限下,均值速度必须收敛于瞬时速度。

2.理论护航:IVC 为 ODE 显式提供了唯一的边界条件。论文中的 Theorem 3 从理论上证明了,最小化 IVC Loss 可以强制积分常数误差归零。

通过 IVC 的锚定,MVP 在省去繁琐迭代步骤的同时,极大地提升了策略拟合的精度与稳定性,实现了精度与速度的双重突破。

技术二:复合生成与选择,确保策略 “步步变强”


强化学习没有现成的专家动作供生成式模型进行匹配,为了实现生成式策略提升,MVP 采用了 Generate-and-Select(复合生成与选择)机制,以自举方式进行动作优选与匹配,逐步收敛至多模态最优策略。

1.高效生成 (Generate):利用 GPU 并行能力快速生成 N 个候选动作。

2.智能优选 (Select):利用 Q 函数对候选动作精确评分,锁定最优执行方案。

理论保证:论文中的 Theorem 1 证明了,该机制能确保策略性能的单调提升。它将增益拆解为 Best-Select 优势(严格非负)与拟合误差。只要通过 IVC 约束将误差控制在极低水平,Generate-and-Select 就能确保策略在迭代中稳定变强。这一理论贡献为 MVP 的收敛性和最优性提供了严格的数学保障。

实验结果:刷新 SOTA,征服具身机器人灵巧操作挑战


研究团队在 Robomimic 和 OGBench 两大主流机器人操作基准上进行了广泛测试,涵盖了从基础的 Lift、Can 到极具挑战性的 Cube-Double/Triple 等 9 个稀疏奖励任务。

1.MVP 在绝大多数任务上都取得了 SOTA 性能。特别是在长视距、高难度的方块错位重排任务中,MVP(粉色)表现出更快的在线收敛速度和更高的最终性能。





2. 得益于单步生成的特性,MVP 在计算效率上展现了压倒性优势。



  • 训练速度:相比于需要多步去噪计算的 QC,FQL 和 BFN,单步生成动作的 MVP 的在线训练吞吐量(iter/s)提升超过 50%。
  • 推理延迟:在统一的无编译加速的 CPU 环境下,MVP 的单步推理耗时仅为几毫秒,而同样而同样基于生成式流模型的 BFN 和 QC 等方法则需百毫秒量级。这使得 MVP 能够轻松部署在算力受限的具身机器人本体上。

总结与展望


在本研究中,团队直击了生成式强化学习在交互训练与实时控制场景下 “采样速度慢、推理延迟高” 的痛点,提出了 MVP(Mean Velocity Policy)框架,通过学习均值速度场绕过了复杂的时序迭代采样过程,实现了无需蒸馏的单步极速生成。为了弥补均值流学习在边界条件上的理论缺失,研究设计了瞬时速度约束(IVC),从数学底层保证了策略函数的高精度拟合。实验表明,MVP 在保持 SOTA 成功率的同时,不仅显著缩短了训练周期,更将推理延迟压低至毫秒量级。这种 “极速生成” 与 “高精控制” 的深度融合,为未来追求极致响应速度的具身智能系统指明了新的范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
紧急提醒:截图别乱发,暗水印能直接找到你的本人

紧急提醒:截图别乱发,暗水印能直接找到你的本人

戗词夺理
2026-03-25 10:35:41
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

成吉思热
2026-03-26 10:02:48
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
西部排名大乱!雷霆输球,马刺冲第1,湖人坐稳第3,3队抢第8

西部排名大乱!雷霆输球,马刺冲第1,湖人坐稳第3,3队抢第8

麦子的篮球故事
2026-03-26 17:33:02
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

军评陈光文
2026-03-25 22:20:57
《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

上官晚安
2026-03-26 06:48:44
国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

界面新闻
2026-03-25 22:29:47
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 18:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
游戏
房产
艺术
军事航空

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

又一经典最终幻想游戏将停运!开服至今已六年有余

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版