网易首页 > 网易号 > 正文 申请入驻

11.26 直播预告 | RL可以为VLA带来什么?

0
分享至

北京时间11月26日(周三)晚8点,由清华RLinf团队策划、将门-TechBeat人工智能社区组织的分享活动“RL可以为VLA带来什么? ”将在视频号准时直播。

本次直播我们很开心邀请到——清华大学交叉信息研究院博士生高枫卡耐基梅隆大学计算机学院机器人所研究生张同和和 清华大学博士后/助理研究员于超。他们将从NeurIPS 2025中稿文章出发,一起 聊聊VLA和RL。

点击下方“预约”,锁定直播

直播介绍

主题:RL可以为VLA带来什么?

时间:北京时间11月26日 (周三) 20:00-21:30

简介:

视觉-语言-动作模型(Vision-language-action models, VLAs)以图像和语言指令为输入,输出可执行的机器人动作,能够实现直观且灵活的人机交互,被认为是具身智能领域高潜力解决方案。

当前,VLA的训练方法遵循标准的“预训练-监督微调(Supervised Fine-tune, SFT)”范式,即在预训练VLM的基础上,VLA模型在大规模异质人类演示数据集上进行微调,随后在目标任务上进一步SFT,以使其能力与特定的机器人实体和环境对齐。

然而,对SFT的依赖带来了一个核心挑战:大规模、高质量的专家轨迹既繁琐又昂贵,且通过SFT得到的模型容易过拟合于专家演示。RLinf团队致力于探索如何将强化学习(Reinforcement Learning, RL) 应用于VLA模型。

本次直播将分享团队在 NeurIPS 2025中稿的两篇文章,分别是 (1) RL4VLA:强化学习可以对VLA模型带来何种程度的泛化? (2) ReinFlow:在线强化学习微调流匹配策略。

文章提纲:

(1) What Can RL Bring to VLA Generalization? An Empirical Study

本研究系统探讨了强化学习 (RL) 对视觉-语言-动作 (VLA) 模型泛化能力的促进作用。针对现有VLA主要依赖监督微调 (SFT) 导致的误差累积与分布偏移问题,我们构建了一个覆盖视觉、语义与执行三大维度的泛化能力评测基准,并系统比较RL微调与SFT的差异。实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与SFT相当的视觉泛化表现。研究进一步发现,PPO在VLA场景中整体优于源自LLM范式的DPO与GRPO方法。基于这些发现,我们提出一套高效可复用的PPO训练方案,降低在大规模VLA上应用强化学习的门槛,并验证其在提升泛化性能方面的实际价值。

(2) ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

本研究针对流匹配策略提出了一种高效的在线强化学习 (RL) 框架 — ReinFlow。现有的流模型(如Rectified Flow与Shortcut Models)基于行为克隆,其探索能力不足,成功率受制于专家数据的质和量,而且一次训练结束后,性能很难继续提升。ReinFlow可以对通过行为克隆得到的流策略开展强化学习,通过模型自主采集数据来提高成功率。ReinFlow从RL理论出发,通过引入噪声估计网络,将确定性的流路径转化为离散时间马尔可夫过程,从而实现精确且直接的似然估计。在包括足式运动控制、视觉输入机械臂操作的场景中,ReinFlow的微调显著提升了性能,相比扩散策略,大幅减少了推理的时钟时间。本工作为今天主流的机器人操作策略的强化学习提供了科学的研究基础。例如,近期团队成功将Reinflow集成RLinf系统,首次将大规模并行在线强化学习应用于接收稀疏奖励的流匹配 VLA 模型,展示了卓越的微调性能。

参考资料


论文链接: https://arxiv.org/ 2510.25889


论文链接: https://arxiv.org/abs/ 2505.19789


论文链接: https://arxiv.org/abs/2510.06710


论文链接: https://arxiv.org/abs/2505.22094



讲者介绍


高枫

清华大学交叉信息院博士生

高枫,清华大学交叉信息院博士在读,导师吴翼。主要研究方向为强化学习与机器人学习,曾在CoRL,ICML,NeurIPS,AAMAS,RAL等会议/期刊发表多篇论文。


张同和

卡耐基梅隆大学计算机学院机器人所研究生

张同和,卡耐基梅隆大学计算机学院机器人所研究生,师从Guanya Shi和Max Simchowitz。主要研究方向为扩散模型、强化学习与机器人学习,曾在ICML,NeurIPS,ICRA等会议发表多篇论文。


于超

清华大学博士后/助理研究员

于超,博士毕业于清华大学电子工程系,师从汪玉和吴翼教授。研究方向为强化学习驱动的决策智能。迄今以第一/通讯作者在顶级国际会议和期刊发表论文40余篇,谷歌学术总引用4600余次。其中,以第一作者发表于NeurIPS 2022的多智能体强化学习算法MAPPO论文引用逾2000次,发表于IROS 2018的机器人论文引用超1000次。曾获清华大学优秀博士毕业生、优秀博士论文、优秀硕士论文、2024年度中国智能体与多智能体系统优秀博士论文提名奖、国家奖学金等荣誉。博士后期间入选清华大学“水木学者”计划;主持国家自然科学基金青年项目、博士后基金特别资助与面上项目等。


-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霍启刚公开个人财产:有35套房子,7套自用28套出租,网友炸锅

霍启刚公开个人财产:有35套房子,7套自用28套出租,网友炸锅

恪守原则和底线
2026-01-12 05:45:06
打进四强的幕后功臣!李春江已经离开山西男篮,定居东莞

打进四强的幕后功臣!李春江已经离开山西男篮,定居东莞

篮球大陆
2026-01-12 15:32:41
A股,突变!20分钟,1万亿元!四大背离显现!

A股,突变!20分钟,1万亿元!四大背离显现!

券商中国
2026-01-12 12:20:18
被批鞋子寒酸后,美国务卿在白宫穿上特朗普买的新鞋,尽管不合脚

被批鞋子寒酸后,美国务卿在白宫穿上特朗普买的新鞋,尽管不合脚

看尽人间百态
2026-01-11 13:03:39
清朝灭亡后,格格们都嫁给了谁?好几位大明星,其实都是皇室后裔

清朝灭亡后,格格们都嫁给了谁?好几位大明星,其实都是皇室后裔

小豫讲故事
2025-12-27 06:00:06
票房破14亿,只是开始!谢霆锋、周星驰、张颂文要掀起一波新高潮

票房破14亿,只是开始!谢霆锋、周星驰、张颂文要掀起一波新高潮

皮皮电影
2026-01-09 16:31:32
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
A股:无需等周二开盘了,种种迹象表明,明天股市很可能这样走

A股:无需等周二开盘了,种种迹象表明,明天股市很可能这样走

财经大拿
2026-01-12 13:37:07
古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

蜉蝣说
2025-09-29 16:49:48
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
都是是自卫反击战,为什么对印度一个月,对越南却打了那么久?

都是是自卫反击战,为什么对印度一个月,对越南却打了那么久?

抽象派大师
2026-01-12 13:15:21
离婚19年,朱玲玲每周三仍回霍家吃饭。不是复婚,也不是演戏。

离婚19年,朱玲玲每周三仍回霍家吃饭。不是复婚,也不是演戏。

百态人间
2026-01-10 05:15:03
末代皇帝:溥仪回到故宫时买了票,发现了自己藏在椅子底下的宝贝

末代皇帝:溥仪回到故宫时买了票,发现了自己藏在椅子底下的宝贝

铭记历史呀
2026-01-10 12:27:42
600118,千亿龙头创新高!商业航天,多股爆发

600118,千亿龙头创新高!商业航天,多股爆发

证券时报e公司
2026-01-12 10:34:57
声音 | 李章洙:如果每场比赛都能如此激烈,所有人都会想参加

声音 | 李章洙:如果每场比赛都能如此激烈,所有人都会想参加

足球报
2026-01-12 12:03:12
现场视频公布!巴基斯坦海军战舰演习时 发射中国产舰空导弹 摧毁空中目标

现场视频公布!巴基斯坦海军战舰演习时 发射中国产舰空导弹 摧毁空中目标

闪电新闻
2026-01-12 11:57:14
广东3消息!徐杰创造纪录,朱芳雨买断王少杰,奎因无情打脸辽篮

广东3消息!徐杰创造纪录,朱芳雨买断王少杰,奎因无情打脸辽篮

多特体育说
2026-01-12 01:07:53
或结束留洋,7年3队,扣除上缴排协,朱婷赚到多少薪水?

或结束留洋,7年3队,扣除上缴排协,朱婷赚到多少薪水?

乐聊球
2026-01-11 14:28:05
电视真的被严重低估了!换个思路居然好用到惊呆,简直是人类之光

电视真的被严重低估了!换个思路居然好用到惊呆,简直是人类之光

Home范
2026-01-10 14:55:03
2026-01-12 16:16:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

小米二手车价大跳水:SU7半年跌5万元

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

闫学晶:脱离群众太久 忘了自己的根

财经要闻

A股大涨 两市成交额3.6万亿创历史新高

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

旅游
教育
房产
时尚
本地

旅游要闻

阿拉木图: 冬日雪趣

教育要闻

指数方程秒解,初中压轴题

房产要闻

重磅调规!417亩商改住+教育地块!海口西海岸又要爆发!

普通人就该照搬这些穿搭!衣服不用买太贵,自然耐看又舒适

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

无障碍浏览 进入关怀版