网易首页 > 网易号 > 正文 申请入驻

11.26 直播预告 | RL可以为VLA带来什么?

0
分享至

北京时间11月26日(周三)晚8点,由清华RLinf团队策划、将门-TechBeat人工智能社区组织的分享活动“RL可以为VLA带来什么? ”将在视频号准时直播。

本次直播我们很开心邀请到——清华大学交叉信息研究院博士生高枫卡耐基梅隆大学计算机学院机器人所研究生张同和和 清华大学博士后/助理研究员于超。他们将从NeurIPS 2025中稿文章出发,一起 聊聊VLA和RL。

点击下方“预约”,锁定直播

直播介绍

主题:RL可以为VLA带来什么?

时间:北京时间11月26日 (周三) 20:00-21:30

简介:

视觉-语言-动作模型(Vision-language-action models, VLAs)以图像和语言指令为输入,输出可执行的机器人动作,能够实现直观且灵活的人机交互,被认为是具身智能领域高潜力解决方案。

当前,VLA的训练方法遵循标准的“预训练-监督微调(Supervised Fine-tune, SFT)”范式,即在预训练VLM的基础上,VLA模型在大规模异质人类演示数据集上进行微调,随后在目标任务上进一步SFT,以使其能力与特定的机器人实体和环境对齐。

然而,对SFT的依赖带来了一个核心挑战:大规模、高质量的专家轨迹既繁琐又昂贵,且通过SFT得到的模型容易过拟合于专家演示。RLinf团队致力于探索如何将强化学习(Reinforcement Learning, RL) 应用于VLA模型。

本次直播将分享团队在 NeurIPS 2025中稿的两篇文章,分别是 (1) RL4VLA:强化学习可以对VLA模型带来何种程度的泛化? (2) ReinFlow:在线强化学习微调流匹配策略。

文章提纲:

(1) What Can RL Bring to VLA Generalization? An Empirical Study

本研究系统探讨了强化学习 (RL) 对视觉-语言-动作 (VLA) 模型泛化能力的促进作用。针对现有VLA主要依赖监督微调 (SFT) 导致的误差累积与分布偏移问题,我们构建了一个覆盖视觉、语义与执行三大维度的泛化能力评测基准,并系统比较RL微调与SFT的差异。实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与SFT相当的视觉泛化表现。研究进一步发现,PPO在VLA场景中整体优于源自LLM范式的DPO与GRPO方法。基于这些发现,我们提出一套高效可复用的PPO训练方案,降低在大规模VLA上应用强化学习的门槛,并验证其在提升泛化性能方面的实际价值。

(2) ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

本研究针对流匹配策略提出了一种高效的在线强化学习 (RL) 框架 — ReinFlow。现有的流模型(如Rectified Flow与Shortcut Models)基于行为克隆,其探索能力不足,成功率受制于专家数据的质和量,而且一次训练结束后,性能很难继续提升。ReinFlow可以对通过行为克隆得到的流策略开展强化学习,通过模型自主采集数据来提高成功率。ReinFlow从RL理论出发,通过引入噪声估计网络,将确定性的流路径转化为离散时间马尔可夫过程,从而实现精确且直接的似然估计。在包括足式运动控制、视觉输入机械臂操作的场景中,ReinFlow的微调显著提升了性能,相比扩散策略,大幅减少了推理的时钟时间。本工作为今天主流的机器人操作策略的强化学习提供了科学的研究基础。例如,近期团队成功将Reinflow集成RLinf系统,首次将大规模并行在线强化学习应用于接收稀疏奖励的流匹配 VLA 模型,展示了卓越的微调性能。

参考资料


论文链接: https://arxiv.org/ 2510.25889


论文链接: https://arxiv.org/abs/ 2505.19789


论文链接: https://arxiv.org/abs/2510.06710


论文链接: https://arxiv.org/abs/2505.22094



讲者介绍


高枫

清华大学交叉信息院博士生

高枫,清华大学交叉信息院博士在读,导师吴翼。主要研究方向为强化学习与机器人学习,曾在CoRL,ICML,NeurIPS,AAMAS,RAL等会议/期刊发表多篇论文。


张同和

卡耐基梅隆大学计算机学院机器人所研究生

张同和,卡耐基梅隆大学计算机学院机器人所研究生,师从Guanya Shi和Max Simchowitz。主要研究方向为扩散模型、强化学习与机器人学习,曾在ICML,NeurIPS,ICRA等会议发表多篇论文。


于超

清华大学博士后/助理研究员

于超,博士毕业于清华大学电子工程系,师从汪玉和吴翼教授。研究方向为强化学习驱动的决策智能。迄今以第一/通讯作者在顶级国际会议和期刊发表论文40余篇,谷歌学术总引用4600余次。其中,以第一作者发表于NeurIPS 2022的多智能体强化学习算法MAPPO论文引用逾2000次,发表于IROS 2018的机器人论文引用超1000次。曾获清华大学优秀博士毕业生、优秀博士论文、优秀硕士论文、2024年度中国智能体与多智能体系统优秀博士论文提名奖、国家奖学金等荣誉。博士后期间入选清华大学“水木学者”计划;主持国家自然科学基金青年项目、博士后基金特别资助与面上项目等。


-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河北孟村金某已被执行死刑,孩子还未回到外婆家

河北孟村金某已被执行死刑,孩子还未回到外婆家

九方鱼论
2026-04-04 06:20:18
看到有人说,悄悄复苏了?

看到有人说,悄悄复苏了?

中产先生
2026-04-03 12:08:02
袁方跨省调任云南省政府党组成员,此前任马鞍山市委书记

袁方跨省调任云南省政府党组成员,此前任马鞍山市委书记

上观新闻
2026-04-03 22:59:09
为抢在中国之前登月,美方刚送人上天,就得知一个难以接受的事实

为抢在中国之前登月,美方刚送人上天,就得知一个难以接受的事实

曹兴教授TALK
2026-04-03 20:22:53
刚当教育局长,去给女儿开家长会,班主任当全班人批评我女儿

刚当教育局长,去给女儿开家长会,班主任当全班人批评我女儿

奶茶麦子
2026-04-04 00:23:05
强一股份:一季度净利同比预增654.79%-761.60%

强一股份:一季度净利同比预增654.79%-761.60%

芯智讯
2026-04-04 10:25:13
刚收到中国10万桶油救急,越南扭脸对华商品加税,税率超过27%

刚收到中国10万桶油救急,越南扭脸对华商品加税,税率超过27%

坠入二次元的海洋
2026-04-03 19:59:53
《浪7》5个名场面:王俊凯马天宇来了,全场只有她带大25岁老公来

《浪7》5个名场面:王俊凯马天宇来了,全场只有她带大25岁老公来

阿纂看事
2026-04-03 11:25:40
周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

鹤羽说个事
2026-04-02 23:00:01
涨价!浙江姑娘肠子悔青,去年没下单今年贵5000元!老板:可能还要涨

涨价!浙江姑娘肠子悔青,去年没下单今年贵5000元!老板:可能还要涨

浙江之声
2026-03-20 13:26:35
蓝牙耳机不香了?年轻人纷纷换回有线耳机,原因太现实

蓝牙耳机不香了?年轻人纷纷换回有线耳机,原因太现实

小柱解说游戏
2026-04-02 18:48:39
勇士有意低价续约波神!希望科尔回归,追梦或降薪留队,阵容豪华

勇士有意低价续约波神!希望科尔回归,追梦或降薪留队,阵容豪华

你的篮球频道
2026-04-04 08:24:11
日本摩托的“命根子”正被连根拔起,张雪夺冠只是个开始

日本摩托的“命根子”正被连根拔起,张雪夺冠只是个开始

周哥一影视
2026-04-03 20:01:11
刘晓庆再闯戛纳!过亿翡翠直接焊在身上,这才是真底气

刘晓庆再闯戛纳!过亿翡翠直接焊在身上,这才是真底气

小光侃娱乐
2026-03-31 18:30:03
平成时代女演员的巅峰时期真是令人惊叹

平成时代女演员的巅峰时期真是令人惊叹

东京新青年
2026-03-29 15:35:04
第91波打击落下,以色列终极噩耗降临,伊朗向中国求助,毛宁回应

第91波打击落下,以色列终极噩耗降临,伊朗向中国求助,毛宁回应

健身狂人
2026-04-03 18:55:21
西部恩怨局大乱斗!每一组对决都是写好的剧本

西部恩怨局大乱斗!每一组对决都是写好的剧本

茅塞盾开本尊
2026-04-04 13:09:52
拒绝9块9外卖大战,霸王茶姬创始人:守住了价格,却“输”掉77亿

拒绝9块9外卖大战,霸王茶姬创始人:守住了价格,却“输”掉77亿

秋叶大叔
2026-04-04 07:38:23
苗苗主动晒五口全家福,郑恺基因强大,仨孩子都像他看着一模一样

苗苗主动晒五口全家福,郑恺基因强大,仨孩子都像他看着一模一样

小椰的奶奶
2026-04-01 13:37:06
韩媒:全红婵小学二年级就去练跳水!基础教育缺失 未来有3种可能

韩媒:全红婵小学二年级就去练跳水!基础教育缺失 未来有3种可能

念洲
2026-04-02 09:45:59
2026-04-04 13:55:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2334文章数 596关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

阚清子口碑赢了!全开麦跑调拒绝重唱

财经要闻

刘纪鹏:只盼长慢牛,巩固4000点是关键

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

艺术
房产
健康
教育
军事航空

艺术要闻

王羲之《孝经》真迹现身日本!美得难以言表

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

干细胞抗衰4大误区,90%的人都中招

教育要闻

初中生自己点最便宜的7元面,却用仅剩的2元给老师加卤蛋

军事要闻

俄国防部:一架苏-30战机在克里米亚坠毁

无障碍浏览 进入关怀版