网易首页 > 网易号 > 正文 申请入驻

直播预告 | 清华RLinf团队: RL可以为VLA带来什么?

0
分享至

北京时间11月26日(周三)晚8点,由清华RLinf团队策划、将门-TechBeat人工智能社区组织的分享活动“RL可以为VLA带来什么? ”将在视频号准时直播。

本次直播我们很开心邀请到——清华大学交叉信息研究院博士生高枫卡耐基梅隆大学计算机学院机器人所研究生张同和和 清华大学博士后/助理研究员于超。他们将从NeurIPS 2025中稿文章出发,一起 聊聊VLA和RL。

点击下方“预约”,锁定直播

直播介绍

主题:RL可以为VLA带来什么?

时间:北京时间11月26日 (周三) 20:00-21:30

简介:

视觉-语言-动作模型(Vision-language-action models, VLAs)以图像和语言指令为输入,输出可执行的机器人动作,能够实现直观且灵活的人机交互,被认为是具身智能领域高潜力解决方案。

当前,VLA的训练方法遵循标准的“预训练-监督微调(Supervised Fine-tune, SFT)”范式,即在预训练VLM的基础上,VLA模型在大规模异质人类演示数据集上进行微调,随后在目标任务上进一步SFT,以使其能力与特定的机器人实体和环境对齐。

然而,对SFT的依赖带来了一个核心挑战:大规模、高质量的专家轨迹既繁琐又昂贵,且通过SFT得到的模型容易过拟合于专家演示。RLinf团队致力于探索如何将强化学习(Reinforcement Learning, RL) 应用于VLA模型。

本次直播将分享团队在 NeurIPS 2025中稿的两篇文章,分别是 (1) RL4VLA:强化学习可以对VLA模型带来何种程度的泛化? (2) ReinFlow:在线强化学习微调流匹配策略。

文章提纲:

(1) What Can RL Bring to VLA Generalization? An Empirical Study

本研究系统探讨了强化学习 (RL) 对视觉-语言-动作 (VLA) 模型泛化能力的促进作用。针对现有VLA主要依赖监督微调 (SFT) 导致的误差累积与分布偏移问题,我们构建了一个覆盖视觉、语义与执行三大维度的泛化能力评测基准,并系统比较RL微调与SFT的差异。实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与SFT相当的视觉泛化表现。研究进一步发现,PPO在VLA场景中整体优于源自LLM范式的DPO与GRPO方法。基于这些发现,我们提出一套高效可复用的PPO训练方案,降低在大规模VLA上应用强化学习的门槛,并验证其在提升泛化性能方面的实际价值。

(2) ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

本研究针对流匹配策略提出了一种高效的在线强化学习 (RL) 框架 — ReinFlow。现有的流模型(如Rectified Flow与Shortcut Models)基于行为克隆,其探索能力不足,成功率受制于专家数据的质和量,而且一次训练结束后,性能很难继续提升。ReinFlow可以对通过行为克隆得到的流策略开展强化学习,通过模型自主采集数据来提高成功率。ReinFlow从RL理论出发,通过引入噪声估计网络,将确定性的流路径转化为离散时间马尔可夫过程,从而实现精确且直接的似然估计。在包括足式运动控制、视觉输入机械臂操作的场景中,ReinFlow的微调显著提升了性能,相比扩散策略,大幅减少了推理的时钟时间。本工作为今天主流的机器人操作策略的强化学习提供了科学的研究基础。例如,近期团队成功将Reinflow集成RLinf系统,首次将大规模并行在线强化学习应用于接收稀疏奖励的流匹配 VLA 模型,展示了卓越的微调性能。

参考资料


论文链接: https://arxiv.org/ 2510.25889


论文链接: https://arxiv.org/abs/ 2505.19789


论文链接: https://arxiv.org/abs/2510.06710


论文链接: https://arxiv.org/abs/2505.22094



讲者介绍


高枫

清华大学交叉信息院博士生

高枫,清华大学交叉信息院博士在读,导师吴翼。主要研究方向为强化学习与机器人学习,曾在CoRL,ICML,NeurIPS,AAMAS,RAL等会议/期刊发表多篇论文。


张同和

卡耐基梅隆大学计算机学院机器人所研究生

张同和,卡耐基梅隆大学计算机学院机器人所研究生,师从Guanya Shi和Max Simchowitz。主要研究方向为扩散模型、强化学习与机器人学习,曾在ICML,NeurIPS,ICRA等会议发表多篇论文。


于超

清华大学博士后/助理研究员

于超,博士毕业于清华大学电子工程系,师从汪玉和吴翼教授。研究方向为强化学习驱动的决策智能。迄今以第一/通讯作者在顶级国际会议和期刊发表论文40余篇,谷歌学术总引用4600余次。其中,以第一作者发表于NeurIPS 2022的多智能体强化学习算法MAPPO论文引用逾2000次,发表于IROS 2018的机器人论文引用超1000次。曾获清华大学优秀博士毕业生、优秀博士论文、优秀硕士论文、2024年度中国智能体与多智能体系统优秀博士论文提名奖、国家奖学金等荣誉。博士后期间入选清华大学“水木学者”计划;主持国家自然科学基金青年项目、博士后基金特别资助与面上项目等。


-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“超长学期”还没完“超短学期”已在路上?2026校历启动“过山车”模式

“超长学期”还没完“超短学期”已在路上?2026校历启动“过山车”模式

上游新闻
2026-01-10 15:06:15
台湾最新民调出炉,蒋万安碾压,江启臣大胜,侯友宜已成2026变数

台湾最新民调出炉,蒋万安碾压,江启臣大胜,侯友宜已成2026变数

三石记
2026-01-11 11:02:08
朝鲜战争中,美军原本已接近击败中国,却碰上了中国决死的师长

朝鲜战争中,美军原本已接近击败中国,却碰上了中国决死的师长

兴趣知识
2025-12-18 01:04:23
-6℃,严重冰冻!宁波人挺住,下周还有大反转

-6℃,严重冰冻!宁波人挺住,下周还有大反转

鲁中晨报
2026-01-11 11:45:18
大反转!500万欧中超内马尔接近加盟辽宁铁人:成最大牌外援

大反转!500万欧中超内马尔接近加盟辽宁铁人:成最大牌外援

邱泽云
2026-01-10 19:24:18
周末大事件汇总(AI、机器人、商业航天、核聚变、3D打印、低空)

周末大事件汇总(AI、机器人、商业航天、核聚变、3D打印、低空)

林子说事
2026-01-11 12:16:25
朴槿惠出狱生活:住别墅,与小10岁律师为伴,如今生活安逸

朴槿惠出狱生活:住别墅,与小10岁律师为伴,如今生活安逸

策略述
2026-01-09 13:02:41
霍启刚有没有机会成为特首?其实他发展势头来看,机会还是很大的

霍启刚有没有机会成为特首?其实他发展势头来看,机会还是很大的

我心纵横天地间
2026-01-11 14:07:44
火葬场火化师自述:为了每月2万的工资,我知道了很多不该知道的

火葬场火化师自述:为了每月2万的工资,我知道了很多不该知道的

卡西莫多的故事
2025-12-06 19:32:38
事实证明,“消失”多年的清华才女武亦姝,证实了董卿当年没说错

事实证明,“消失”多年的清华才女武亦姝,证实了董卿当年没说错

千言娱乐记
2025-09-25 20:27:56
中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

肖兹探秘说
2026-01-01 20:16:34
俄专家警告:一旦美军与中国开战,一周内或损失超十万人

俄专家警告:一旦美军与中国开战,一周内或损失超十万人

Ck的蜜糖
2026-01-08 01:49:06
今年已有64“虎”落马,一“虎”被新华社点名:新型腐败隐性腐败典型!

今年已有64“虎”落马,一“虎”被新华社点名:新型腐败隐性腐败典型!

上观新闻
2025-12-30 12:29:04
周琦或交易?最大短板被曝出,下家3选1,还剩3年顶薪

周琦或交易?最大短板被曝出,下家3选1,还剩3年顶薪

乐聊球
2026-01-11 12:11:07
副县长在全县大会上骂我是废物,我站起来鞠躬说"您说得对"

副县长在全县大会上骂我是废物,我站起来鞠躬说"您说得对"

故事那点事
2026-01-10 08:50:07
果然不出所料,委内瑞拉的石油“有问题”,只有中国能安稳开采!

果然不出所料,委内瑞拉的石油“有问题”,只有中国能安稳开采!

烈史
2026-01-10 13:42:03
2026年初官媒高调官宣王虹喜讯,韦东奕:终于等到这天

2026年初官媒高调官宣王虹喜讯,韦东奕:终于等到这天

地球记
2026-01-06 10:19:43
赌对了!快船炸裂交易!25+7干翻东部最强球队

赌对了!快船炸裂交易!25+7干翻东部最强球队

篮球实战宝典
2026-01-11 12:08:21
表面“黄花大闺女”,背地却偷偷生子的4位女星,最后一个想不到

表面“黄花大闺女”,背地却偷偷生子的4位女星,最后一个想不到

青史楼兰
2026-01-04 09:24:27
不是不想留!真的买不起!上海海港放弃茹萨和加布里埃尔真相曝光

不是不想留!真的买不起!上海海港放弃茹萨和加布里埃尔真相曝光

三秋体育
2026-01-11 10:57:10
2026-01-11 15:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

日本知名女星结婚:酷似高圆圆 曾和林志玲老公交往

头条要闻

日本知名女星结婚:酷似高圆圆 曾和林志玲老公交往

体育要闻

詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

娱乐要闻

网友偶遇贾玲张小斐崇礼滑雪

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

时尚
本地
旅游
教育
游戏

朱珠美上热搜的老钱风穿搭,太值得借鉴了!

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

旅游要闻

雪韵环翠入画来 山海相映醉游人

教育要闻

从沈阳小学数学考卷风波,看教育命题之殇

性感《女巨人》游戏遭吐槽:这目标受众到底是谁

无障碍浏览 进入关怀版