网易首页 > 网易号 > 正文 申请入驻

银河通用王鹤:VLA相当于机器人的「义务教育」

0
分享至

在近日的北京智源大会上,北京大学助理教授、北京银河通用机器人创始人兼CTO-王鹤,在备受关注的「具身智能与人形机器人」论坛上发表了演讲,详细介绍了VLA对于机器人智能发展的作用,以及银河通用目前所做的工作。

RoboX对其演讲内容进行了整理提炼,供大家参考。



简述VLA

通用机器人的本质,是通过具身智能驱动高自由度的仿人本体。它不能只做某一件具体的事情,而是要服务千行百业,千家万户。

面对这样的目标,王鹤认为,VLA(Vision-Language-Action Model)的应用是一个重要转折点。

他介绍称,VLA的输入是人类的自然语言指令,这也是实现通用的一个关键点,比过去的复杂指令更加通用。

另一个重要的模态是视觉:视觉占到了人类日常信息输入量的80%以上。所以要想实现通用机器人,先纳入视觉模态是非常重要的。

模型的输出是Action。在谷歌的RT-2框架中,模型直接生成Everyday Robot末端执行器的瞬时三维平动和三维旋转。该动作指令可通过逆运动学(IK)求解器转换为关节空间的目标位姿,最终由PID/PD控制器驱动执行机构完成运动控制。



王鹤表示,如果类比人体的运动控制及脑部系统,VLA用于实时生成轨迹,控制则交由机械臂,做IK后再基于positional(位置信息)执行。所以VLA不是「小脑」,更多的是「大脑」。

今天的VLA强调快速的闭环反馈,它的频率从刚开始的3赫兹,到现在最快可达50赫兹甚至更高的反馈频率,这就是大脑中的快系统。而一些逻辑推理和长程规划的东西,它会思考得更慢。

为何不能押宝真实数据?

目前,国际上训练VLA最主流的方式,是通过真机采集大量的遥操作数据,例如特斯拉的遥操工厂、斯坦福大学的ALOHA等等。

“现在市场或政府都在讨论要不要建大型的遥操场,到底要建多少才够。我们可以先看一下自动驾驶使用的‘人类的遥操数据’——既然车就是机器人,那方向盘就是遥操的主臂,人就是遥操员。”

王鹤表示,如今的头部车企,会有约百万辆级别的车每天在路上跑。按照15-30秒是一个clip的标准,日回流量为上亿clips;而目前具身智能最大的数据集约为100万-200万clips的数据集。



车的自由度只有两个:方向盘+油门刹车。而人形机器人的一条手臂就有六七个自由度,一只灵巧手有20个自由度,全身加起来有接近百个自由度。

如今的头部人形机器人厂商,包括银河通用,在真机数据采集这件事上,与汽车百万台的数量中间存在巨大差距,这就是为什么不能够完全押宝真实数据。

“如果想押宝真实数据,就得先把人形机器人量产到百万千万台,然后再让百万千万人去做数据采集。这一点会让人形机器人或者VLA的发展陷入长期的无法落地的状态。”

如何训练端到端VLA?

王鹤指出,在此背景下,最主要的学术观点就是用合成仿真数据解决难题——银河通用正在从机器人与物体间的交互,以及灵巧手抓取标签和轨迹中,研究视觉层面仿真和现实之间的差异(Sim2Real Gap),并且在仿真器中通过大量的强化学习,自主探索灵巧手抓取的方式。



今年,银河通用构建了一个完全用合成数据训练的具身端到端VLA大模型。

王鹤称,它背后是数10亿级别的机械臂抓取的轨迹帧,每一帧都有VLA label。并且,这些数据覆盖了桌面上可能出现的各种物体及相关信息:包括名字、材质、形状、堆放方式、光照背景,桌子颜色纹理,以及其他变量等。

与DeepSeek千亿万亿级别的参数量不同,银河通用的GraspVLA模型,是一个几十亿参数的端到端快系统。

该模型的训练特点,是在输出时用到了「具身思维链」:“比如‘拿起盒子’的动作,我们先输出一个2D的Bounding Box(边界框),再用该输出去进一步思考如何做6D Grasping Pose。这两个输出本质上都是Auto-Regressive(自回归模型)中的离散Token,基于它们,可以用Flow Matching的Action Expert,去输出七自由度的Delta Action。就和Google RT-2一样,Delta Action可实现瞬时平动,瞬时转动和瞬时夹爪的闭合。”

王鹤表示,GraspVLA是第一次将2D Bounding Box、6D Grasping Pose引入作为思维链(CoT),最终输出Delta Action的。



数据价值与测试效果

GraspVLA首先采用的就是合成数据,由于这些数据将物体的2D Bounding Box标签、6D Grasping Pose的抓取标签,动作轨迹标签等融在一起合成,从而可以保证其一致性。

但是,合成数据毕竟不能囊括物理世界的一切信息,所以银河通用也在使用互联网的图文视频数据。这些数据也被加以注释和描述,约有一亿数据也做了Bounding Box的注释,这些数据会与合成数据进行混合训练。

“互联网的很多数据没有Action标签,只有Bounding Box标签,所以我们的模型就只训练到第一步Bounding Box,并不输出CoT和Action。经过这样的混合训练,我们可将互联网上所有的感知、视觉和语义全部吸纳进来。”



王鹤指出,经过训练,银河通用的VLA端到端模型产生了非常强的零样本泛化能力——经过与π0(PI发布的具身智能大模型)对比,在全新的环境中,π0需要在指定的测试环境中进行一定的数据微调才能工作,而GraspVLA则完全不需要微调,成功率还比前者更高。



“π0只用到了100万到几百万规模的数据集,而且还是一个‘很脏’的数据集,包括一些跨本体、多形态的机械臂、人形、轮式混在一起。我们则是单一机械臂的大规模高质量物理仿真数据集,对于光照背景、物体位置、平面高度、开放词汇类别、闭环、鲁棒性,都有充分的零样本的泛化性。”

王鹤举了一个「抓取玩具鸭」的案例,输入的语言指令就是「抓一个鸭子」,同时随机采取了各种干扰方式,夹爪还是成功夹起了目标。他认为,这足以证明GraspVLA不是一个开环的模型。



对于该模型的架构和数据,银河通用也进行了机制消融实验。

“π0的模型只用仿真数据,因此它直接输出Action,成功率没有想象的那么高,在真实世界只有20%。而我们的仿真数据用到了2D Bounding Box、6D Grasping Pose的全部标签,成功率在真实世界达到了93%。”

王鹤还表示,如果和π0.5这种多任务平行训练的模式相比,采用CoT的VLA成功率高了20%以上。

“上述成果都是基于全合成数据。如果你给我真实世界的动作数据,只会让我更强。”

在「零样本泛化」层面,他举了个例子——在针对某品牌矿泉水进行训练时,货架上一排摆了4瓶,一共5排;而测试时变成一排3瓶,一共4排,位置大小、高度、颜色,盖子的直径全变了。



“如果只是简单记忆,肯定是会抓错的,而我们现在能够零样本的泛化在新的饮品上。这就意味着,如果需要进厂或进店培训,可以在一类样品中只培训一个,它就自动在同类物体之间泛化,这样的VLA才能成为老百姓或是工厂超市用得起的技术。”

VLA是「义务教育阶段」

王鹤认为,这种采用合成数据的具身端到端VLA训练新范式,相当于人类的义务教育——它能将一项技能在十亿百亿规模的数据中进行充分学习,在彻底学会以后,就可以真实世界用很少量的数据进行简单培训,这相当于职业教育,让机器人能够举一反三地执行真实场景的任务。



他介绍称,在「货架取物」的任务中,过去是基于视觉,对抓取Pose进行估计,再进行轨迹执行。这需要把商品放得稀疏一些,因为轨迹规划必须要避障。



而在银河通用的实际操作中,货架上的商品种类繁多,形态各异,从瓶装水到真空包装的卤蛋都有,而且灯光、展区、物品位置都和测试布置完全不一样。“这一看就是闭环的模型。”他说道。

灵巧手+VLA的效果

除了展示的二指夹爪,银河通用也对灵巧手进行了长时间测试。

“今年我们用自研的合成管线,第一次将33种人类抓取模式全部覆盖:使用剪刀的手势、持针抓的手势等等,这些数据全都能合成。“

王鹤说的这套基于数学优化和物理仿真的全链路合成管线,能够GPU并行地产生大量的灵巧手抓取数据,覆盖上千万个不同的物体的抓取。而且还不仅限于抓取,还有各种各样的操作。



例如叠衣服的任务,从帽衫、跨栏、背心、长袖、短袖、无袖、长裤、短裤,各种纹理的衣物,都能够大规模合成数据,从而进行非常长程的示范学习。

从王鹤演示的视频来看,灵巧手在叠衣服过程中,即便面对种种干扰也还是继续完成了任务。

另外,其合成数据还覆盖了自然语言视觉、自然语言导航、寻物,跟随人等等。其中,在复杂环境中,听从复杂指令跟随人的示范非常有趣:

“在从来没见过的场景里,没有SLAM,没有定位建图,机器人能在陌生环境中服从一个非常长的指令,例如Move to the man on the right side,then follow the man until you see a sofa。”

在示范视频中,可以看到收到该指令的机器狗,跟随一个人直到沙发边,然后便停止跟随。另一个案例中,即便人都在拐角处走出视野了,机器狗还能继续转弯跟随,而且在商场的复杂环境中也没有失误。



“这就是端到端方案的效果。头部车厂是单天回流1亿条clips,可是总不能找100万人去操作机器狗,所以这其中全合成数据。”

已开始常态化运行

目前,这些VLA端到端模型的技术,已经在零售、接待、康养和工业领域中逐步落地。

例如在24小时药店的货架区和柜子存储区,银河通用已经部署了人形机器人进行取货工作,这样的店已经常态化运行7家。

关于「全人形」的工作

全人形机器人无疑是更难的,而银河通用也已经在全人形上开展工作。

“现在我们基于强化学习端到端全身控制的遥操,不仅能蹲,还可以向前前倾,能抓握地面上的东西。我们也在各种各样的环境中去做全身遥操,并且全时维持身体的平稳。”



这就是银河通用联合清华大学弋力助理教授团队发布的OpenWBT,这是一款全开源、多机型、跨虚实人形机器人全身遥操作系统。

王鹤介绍称,该方法将原子技能进行编码、解码,再把中间串联的连接,通过强化学习构成技能组合。

“大家只需要大家用VR头显、手柄,笔记本就可以轻松搭建。它既能在真实世界里遥操,又能在仿真世界里遥操,还可以跨机型。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人生两件事最重要,一是自己有钱,二是自己健康

人生两件事最重要,一是自己有钱,二是自己健康

清风拂心
2025-10-30 10:15:03
建文帝下落之谜被解开?后世争议600余年,其实朱棣早就找到答案

建文帝下落之谜被解开?后世争议600余年,其实朱棣早就找到答案

生活新鲜市
2025-10-19 08:48:37
湖南一女子因长得太漂亮,直到55岁没上过一天班,三婚三离,颜值曝光后网友唏嘘.....

湖南一女子因长得太漂亮,直到55岁没上过一天班,三婚三离,颜值曝光后网友唏嘘.....

脆皮先生
2025-10-29 20:37:04
王博豪:那次射门机会我应该打上角;欧洲联赛对我锻炼大

王博豪:那次射门机会我应该打上角;欧洲联赛对我锻炼大

懂球帝
2025-11-12 23:20:17
小特解释低迷原因:换球杆和迁移非关键,最后一点出人意料

小特解释低迷原因:换球杆和迁移非关键,最后一点出人意料

大昆说台球
2025-11-13 00:41:40
事情越闹越大,日本驻澳大使向中国撂狠话:“侮辱日本等于宣战”

事情越闹越大,日本驻澳大使向中国撂狠话:“侮辱日本等于宣战”

吃货的分享
2025-11-12 12:44:27
银行集体停售金条,背后信号不简单!普通人这样做才能守住钱袋子

银行集体停售金条,背后信号不简单!普通人这样做才能守住钱袋子

原来仙女不讲理
2025-11-12 19:41:08
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
你们闻过最臭的东西是什么?网友:妇科病的味道吧

你们闻过最臭的东西是什么?网友:妇科病的味道吧

带你感受人间冷暖
2025-09-28 00:15:07
“一觉醒来,大学变高中了”,当本升高成为现实,大学生天都塌了

“一觉醒来,大学变高中了”,当本升高成为现实,大学生天都塌了

妍妍教育日记
2025-11-12 20:05:44
马筱梅直播回应孕肚传闻,一句话怼得网友直乐,实在劲儿圈粉无数

马筱梅直播回应孕肚传闻,一句话怼得网友直乐,实在劲儿圈粉无数

小娱乐悠悠
2025-11-12 09:32:46
更让美国人破防,福建舰工程师透露,中国未来新航母有4大特点

更让美国人破防,福建舰工程师透露,中国未来新航母有4大特点

坐景观天
2025-11-13 00:22:27
一位北京金融女博士直言:如果手里有二十万,不妨死磕"七大口诀"

一位北京金融女博士直言:如果手里有二十万,不妨死磕"七大口诀"

股经纵横谈
2025-10-22 16:39:51
日本前首相再次发文驳斥高市早苗:台湾是中国一部分,日本不应干涉中国内政,对高市上台他表示“越小的狗越会叫”

日本前首相再次发文驳斥高市早苗:台湾是中国一部分,日本不应干涉中国内政,对高市上台他表示“越小的狗越会叫”

极目新闻
2025-11-12 11:10:45
记者:皇马续约楚阿梅尼取得进展,双方都100%希望续约

记者:皇马续约楚阿梅尼取得进展,双方都100%希望续约

懂球帝
2025-11-12 19:37:11
李泽楷做梦也想不到!为他连生3个儿子的梁洛施,会跟马浴柯恋爱

李泽楷做梦也想不到!为他连生3个儿子的梁洛施,会跟马浴柯恋爱

张发林
2025-11-12 22:55:13
曾琦前夫真容流出!两鬓斑白显沧桑,网友:突然理解曾主任了

曾琦前夫真容流出!两鬓斑白显沧桑,网友:突然理解曾主任了

热点菌本君
2025-11-09 15:36:21
科兴生物冲刺港股:上半年营收7亿,同比降7.9% 利润7896万

科兴生物冲刺港股:上半年营收7亿,同比降7.9% 利润7896万

雷递
2025-11-12 17:59:03
“交不起服务费,就能把4个娃撵回家?”家长哭穷无果后选择举报

“交不起服务费,就能把4个娃撵回家?”家长哭穷无果后选择举报

妍妍教育日记
2025-11-12 19:44:34
巴媒:因涉嫌发布恐同内容,罗克面临最多10场禁赛

巴媒:因涉嫌发布恐同内容,罗克面临最多10场禁赛

懂球帝
2025-11-12 11:20:07
2025-11-13 01:36:49
RoboX
RoboX
关注智能汽车、机器人在内的具身智能前沿科技
194文章数 2关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

教育
旅游
时尚
本地
艺术

教育要闻

人民网专访!陈经纶中学校长独家揭秘

旅游要闻

签约金额超10亿元 空港文旅区推介会在成都双流举办

女人年纪大了也不必慌,掌握这3个穿衣技巧,优雅体面极了

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

艺术要闻

春色满园,惊艳美女写真让你目不转睛!

无障碍浏览 进入关怀版