网易首页 > 网易号 > 正文 申请入驻

稚晖君的好东西!首个通用具身基座模型,机器人告别看得懂做不来

0
分享至


机器之心报道

机器之心编辑部

上周五,稚晖君在微博上预告,「下周有好东西发布」。

还没进入「下周」多久,智元机器人的「好东西」揭晓了,还是双重惊喜:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。

机器人训练,苦数据难久矣。一方面是认知维度的数据:互联网上海量的文本和图片数据,帮助机器人建立基础认知,理解世界是什么样的。

另一方面是动作维度的数据,主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据,还有机器人在实际环境中实操得来的真机示教数据。

智元机器人将机器人的训练数据划分为四个层次

然而现有的 VLA(Vision-Language-Action)架构,主要依赖真机和合成数据。

我们每天刷的短视频有很多可供机器人学习的操作,但不能直接用,需要「翻译」成机器人能理解的语言。

因此,机器人很难做到看完人类的视频教程,脑子学会了,手学会了,直接上手做好了。

没有充分激活人类 / 跨本体操作视频数据这个宝贵的数据来源,机器人迭代的成本更高,进化的速度也更慢了。

那么,怎样的架构才能充分利用好这些数据呢?

智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架构。

与 VLA 架构相比,ViLLA 通过预测 Latent Action Tokens(隐式动作标记),让机器人能够将人类动作视频转化为自己可执行的动作序列。这样,机器人就能同时获得认知和动作两个维度的训练,既知其然,也知其所以然。

这样一来,机器人也能有效利用高质量的 AgiBot World 数据集以及互联网上广泛的视频数据,增强策略的泛化能力。

基于 ViLLA 架构,智元打造了通用具身基座大模型 ——GO-1。它由 VLM (语言视觉模型) 和 MoE (专家混合模型) 组成。它整合了视觉、语言、动作、触觉等多模态输入,规划具体动作,直接输出机器人的动作执行序列。

举个例子来说,你告诉机器人去挂衣服,GO-1 会指导机器人理解任务要求,分解动作步骤,适应具体环境,最终执行操作。

但在更深的技术面,这是因为 GO-1 大模型融会贯通了机器人训练数据的四个层次:

在训练阶段,学习了互联网的大规模纯文本和图文数据,所以能理解「挂衣服」在此情此景下的含义和要求。

学习过人类操作视频和其他机器人的各种操作视频,所以能知道挂衣服通常包括哪些环节。

学习过仿真的不同衣服、不同衣柜、不同房间,模拟过挂衣服的操作,所以能理解环节中对应的物体和环境并打通整个任务过程。

又因为学习过真机的示教数据,所以机器人能精准完成任务。

这样一来,GO-1 大模型可以帮助机器人完成全面的「基础教育」和「职业教育」,让机器人具备强大的迁移学习能力。面对新场景时,机器人既有基本常识,又能根据多种多样的环境和物体,快速上手新操作。

  • 论文链接:https://agibot-world.com/blog/agibot_go1.pdf

GO-1:VLA 进化到 ViLLA

与 Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测 Latent Action Tokens (隐式动作标记),弥合图像 - 文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源 SOTA 模型。

ViLLA 架构是由 VLM (多模态大模型) + MoE (混合专家) 组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner (隐式规划器) 借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE 中的 Action Expert (动作专家) 借助百万真机数据获得精细的动作执行能力。

在推理时,VLM、Latent Planner 和 Action Expert 三者协同工作:

  • VLM 采用 InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解
  • Latent Planner 是 MoE 中的一组专家,基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP (Chain of Planning,规划链),进行通用的动作理解和规划
  • Action Expert 是 MoE 中的另外一组专家,基于 VLM 的中间层输出以及 Latent Action Tokens,生成最终的精细动作序列

Latent Planner 和 Action Expert 是这个 MoE 框架里的 2 个关键构成:

Latent Planner(隐式规划器)

尽管 AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。

为此,智元采用 Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过 Latent Planner 预测这些 Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

  • Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间 Latent Actions 的 Groundtruth(真值),它由编码器和解码器组成。其中
  • 编码器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(时序因果掩码)。
  • 解码器采用 Spatial Transformer,以初始帧和离散化的 Latent Action Tokens 作为输入。
  • Latent Action Tokens 通过 VQ-VAE 的方式进行量化处理。
  • Latent Planner 负责预测这些离散的 Latent Action Tokens,它与 VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的 FFN (前馈神经网络) 和 Q/K/V/O (查询、键、值、输出) 投影矩阵。Latent Planner 这组专家会逐层结合 VLM 输出的中间信息,通过 Cross Entropy Loss(交叉熵损失)进行监督训练。

Action Expert(动作专家)

为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,智元引入了 Action Expert,其采用 Diffusion Model 作为目标函数来建模低层级动作的连续分布。

  • Action Expert 结构设计上与 Latent Planner 类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的 FFN 和 Q/K/V/O 投影矩阵,它通过 Denoising Process(去噪过程)逐步回归动作序列。
  • Action Expert 与 VLM、Latent Planner 分层结合,确保信息流的一致性与协同优化。

GO-1 首个通用具身基座模型

而 GO-1 基于 ViLLA架构。具体来说,VLM 作为通用具身基座大模型的主干网络,继承开源多模态大模型 InternVL2.5-2B 的权重,利用互联网大规模纯文本和图文数据,让 GO-1 大模型具备了通用的场景感知和理解能力。

隐动作专家模型作为第一个专家模型,是 GO-1 大模型中隐式的规划器,它利用到了大规模人类操作和跨本体操作视频,让模型具备动作的理解能力。

GO-1 大模型的最后是作为动作预测器的动作专家模型,它利用高质量的仿真数据、真机数据,让模型具备了动作的精细执行能力。

作为通用具身基座大模型,GO-1 实现了四项突破:

  • 人类视频学习:GO-1 大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
  • 小样本快速泛化:GO-1 大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。
  • 一脑多形:GO-1 大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。
  • 持续进化:GO-1 大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

实验结果

通过 Vision-Language-Latent-Action (ViLLA) 创新性架构,研究团队在五种不同复杂度任务上测试 GO-1。

相比已有的最优模型,GO-1 成功率大幅领先,平均成功率提高了 32%(46%→78%)。其中 GO-1 在倒水(Pour Water)、清理桌面(Table Bussing) 和补充饮料( Restock Beverage) 任务表现尤为突出。

此外,他们还对 Latent Planner 进行了消融实验,可以看到增加 Latent Planner 可以提升 12% 的成功率 (66%→78%)。

在破解机器人训练的数据难题上,智元始终秉持开源精神,推动业界共享。

去年 12 月,智元面向全球开源了 AgiBot World 数据集大规模训练数据集,这是首个基于真实场景和全栈硬件的平台所采集的百万级机器人数据集。今年 2 月,智元开源了 AgiBot Digital World 仿真数据集,还可以提供多元化的专家轨迹生成策略。

如今,随着 ViLLA 架构与 GO-1 大模型的重磅发布,机器人不仅拥有了海量真实和仿真数据,更具备了快速学习的迁移能力,让机器在拓展了运动能力之外,更加具备了 AI 的能力,作业能力,是让机器具备了真正的价值。

相信机器人将能更好地适应千变万化的现实环境,向着具备通用智能的自主体发展,在商业、工业、家居等多个领域大展身手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊媒:伊朗若遭美国地面入侵将打击曼德海峡

伊媒:伊朗若遭美国地面入侵将打击曼德海峡

参考消息
2026-03-26 11:02:08
丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

观史搜寻着
2026-03-26 01:10:50
理解城市 | 开封文旅原来这样“火”

理解城市 | 开封文旅原来这样“火”

澎湃新闻
2026-03-26 12:58:34
美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

瞩望云霄
2026-03-25 18:20:59
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
出大事了,以色列新计划曝光,联合国急呼停火,第一个反抗者出现

出大事了,以色列新计划曝光,联合国急呼停火,第一个反抗者出现

李健政观察
2026-03-26 17:00:52
国际油价涨幅扩大 布伦特原油期货站上105美元/桶

国际油价涨幅扩大 布伦特原油期货站上105美元/桶

每日经济新闻
2026-03-26 15:11:37
国内航线燃油费4月5日上涨

国内航线燃油费4月5日上涨

21世纪经济报道
2026-03-26 19:23:14
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
省长刘捷在台州专题调研开发区高质量发展工作

省长刘捷在台州专题调研开发区高质量发展工作

台州发布
2026-03-26 20:57:28
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

流云随风去远方
2026-03-26 18:36:05
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

霁寒飘雪
2026-03-26 09:54:09
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

39健康网
2026-03-11 20:11:03
2025年演唱会票房最高的10位歌手排行榜,这些歌手太赚钱了!

2025年演唱会票房最高的10位歌手排行榜,这些歌手太赚钱了!

小椰的奶奶
2026-03-26 08:40:13
乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

项鹏飞
2026-03-26 21:13:57
萨巴伦卡赢郑钦文后吃100美元汉堡 顶奢!鱼子酱+金箔碎她说超好吃

萨巴伦卡赢郑钦文后吃100美元汉堡 顶奢!鱼子酱+金箔碎她说超好吃

劲爆体坛
2026-03-26 08:10:23
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
2026-03-26 22:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
家居
数码
亲子
军事航空

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

家居要闻

傍海而居 静观蝴蝶海

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

亲子要闻

你好,我是馒头,快开门!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版