网易首页 > 网易号 > 正文 申请入驻

VLA进化到ViLLA,智元发布首个通用具身基座大模型GO-1|产业创新动态

0
分享至

转载自:智元机器人

3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。

2024年底,智元推出了 AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBot World,智元今天正式发布智元通用具身基座大模型 Genie Operator-1(GO-1)。

01 GO-1:VLA进化到ViLLA

为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。GO-1作为首个通用具身基座大模型,基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent Planner和Action Expert三者协同工作:

  1. VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

  2. Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

  3. Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;

下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert:

混合专家一:

Latent Planner(隐式规划器)

尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

  • Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth(真值),它由编码器和解码器组成。其中:

  • 编码器采用Spatial-temporal Transformer,并使用Causal Temporal Masks(时序因果掩码)。

  • 解码器采用Spatial Transformer,以初始帧和离散化的Latent Action Tokens作为输入。

  • Latent Action Tokens通过VQ-VAE的方式进行量化处理。

  • Latent Planner负责预测这些离散的Latent Action Tokens,它与VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner这组专家会逐层结合 VLM 输出的中间信息,通过Cross Entropy Loss(交叉熵损失)进行监督训练。

混合专家二:

Action Expert(动作专家)

为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,我们引入Action Expert,其采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

  • Action Expert结构设计上与Latent Planner类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的FFN和Q/K/V/O投影矩阵,它通过Denoising Process(去噪过程)逐步回归动作序列。

  • Action Expert与VLM、Latent Planner分层结合,确保信息流的一致性与协同优化。

实验效果

通过Vision-Language-Latent-Action (ViLLA) 创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

02 GO-1:具身智能的全面创新

GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

  • 人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

  • 小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

  • 一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

  • 持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

智元通用具身基座大模型GO-1的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进:

  • 从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。

  • 从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境。

  • 从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

GO-1大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。

欢迎转发,但请注明出处“上海经信委”

特别声明:本文经上观新闻客户端的“上观号”入驻单位授权发布,仅代表该入驻单位观点,“上观新闻”仅为信息发布平台,如您认为发布内容侵犯您的相关权益,请联系删除!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

林子说事
2026-03-26 14:08:00
马上评|双双被罚,友谊赛不是“友尽赛”

马上评|双双被罚,友谊赛不是“友尽赛”

澎湃新闻
2026-03-25 16:16:26
电力人气股,涨停!9连板

电力人气股,涨停!9连板

新浪财经
2026-03-26 12:19:23
上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

篮球资讯达人
2026-03-26 00:31:17
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

丞丞故事汇
2026-03-26 10:43:34
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

明心
2026-03-26 15:15:16
多名大学校长炮轰机器人跳舞是哗众取宠

多名大学校长炮轰机器人跳舞是哗众取宠

上峰视点
2026-03-25 19:07:57
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

180视角
2026-03-26 08:43:01
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
朝鲜为何突然禁播部分中国影视作品

朝鲜为何突然禁播部分中国影视作品

东方不败然多多
2026-03-26 05:21:44
2026-03-26 18:07:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
456327文章数 760378关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
教育
时尚
游戏
亲子

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

教育要闻

中小学家长必看数据,看与不看都会后悔

皮衣+裙,高级到炸

又一经典最终幻想游戏将停运!开服至今已六年有余

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

无障碍浏览 进入关怀版