网易首页 > 网易号 > 正文 申请入驻

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

0
分享至

刚填完坑就又埋下“惊喜预告”??

预告多日之后,稚晖君正式官宣首个通用具身基座模型——智元启元大模型(Genie Operator-1,以下简称GO-1),将具身智能迈向通用全能的门槛进一步降低了。

而且剧透明天还有惊喜。

概括而言,此次发布的GO-1大模型主要有以下几个特点:

  • 人类视频学习:可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解;
  • 小样本快速泛化:能够在极少数据甚至零样本下泛化到新场景、新任务,使得后训练成本非常低;
  • 一脑多形:能够在不同机器人形态之间迁移,快速适配到不同本体;
  • 持续进化:搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。

网友们也纷纷表示,通用机器人指日可待了!

首个通用具身基座模型GO-1

具体来看,GO-1大模型由智元机器人联合上海AI Lab共同发布。

通过大规模、多样化的数据训练,GO-1展现出强大的通用性智能化能力,突破了大量以往具身智能面临的瓶颈。

按照官方说法,GO-1除了拓展机器人的运动能力,更重要的是加强了其AI能力,从而大大增加了机器人的实用价值。

首先,通过学习人类操作视频,机器人能快速学习新技能了。

比如下面这个倒水的动作:

而且机器人还具备了一定的物体跟踪能力,即使随意移动水杯位置,它也能精准倒水。

与此同时,机器人不止掌握已经学过的操作,还能识别并操作未见过的物品(仅通过百条级数据就能实现快速泛化)。

比如倒完水之后,再烤烤面包并抹上果酱:

另外,当前的具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,这导致两个问题:

  • 数据利用率低:不同机器人收集的数据难以共享,无法充分利用跨本体数据进行训练;
  • 部署受限:训练好的模型难以迁移到不同类型的机器人,每个本体往往需要独立训练一个模型,增加适配成本。

而用上GO-1大模型之后,这些问题都被解决了。

可以看到,多个相同/不同本体的机器人能够共同协作完成复杂任务。

此外,GO-1大模型还支持数据飞轮持续提升。即在实际操作过程中不断回流数据尤其是执行出现问题的数据,持续驱动优化模型性能。

比如下面这个例子中,机器人放咖啡杯时出现失误,就可以通过数据回流(加上人工审核)针对性优化。

对了,GO-1大模型也为机器人增加了新的语音交互方式,这极大便利了用户在现实场景中自由表达需求。

基于全新ViLLA架构

事实上,GO-1大模型的构建核心围绕对数据的充分利用展开。

基于具身领域的数字金字塔,GO-1大模型吸纳了人类世界多种维度和类型的数据:

  • 底层:互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景;
  • 第2层:大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式;
  • 第3层:仿真数据,用于增强泛化性,让机器人适应不同场景、物体等;
  • 顶层:高质量的真机示教数据,用于训练精准动作执行。

有了这些数据,可以让机器人在一开始就拥有通用的场景感知和语言能力,通用的动作理解能力,以及精细的动作执行力。

当然,过程中也少不了一个合适的数据处理架构。

由于现有的VLA(Vision-Language-Action)架构没有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。

因此,智元团队创新性地提出了ViLLA(Vision-Language-Latent-Action)架构

与VLA架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。它能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力。

展开来说,ViLLA架构是由VLM(多模态大模型)+MoE(混合专家)组成。

其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

推理时,VLM、Latent Planner和Action Expert三者协同工作

  • VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
  • Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
  • Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

举个例子,假如用户给出机器人指令“挂衣服”,模型就可以根据看到的画面,理解这句话对应的任务要求。然后模型根据之前训练时看过的挂衣服数据,设想这个过程应该包括哪些操作步骤,最后执行这一连串的步骤,完成整个任务的操作。

与此同时,通过ViLLA架构,智元团队在五种不同复杂度任务上测试GO-1。

结果显示,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。

此外团队还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

还有一个彩蛋

GO-1发布视频的最后,相信大家也看到了一个彩蛋:

不知道内容是否和稚晖君的最新预告有关,明天我们继续蹲蹲~

论文:
https://agibot-world.com/blog/agibot_go1.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰家人首发声:不设追思会丧事从简,谢绝所有人去家中慰问

张雪峰家人首发声:不设追思会丧事从简,谢绝所有人去家中慰问

娱乐圈圈圆
2026-03-26 11:08:26
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
封锁霍尔木兹海峡,伊朗丢掉的不只是底牌

封锁霍尔木兹海峡,伊朗丢掉的不只是底牌

冰川思想库
2026-03-26 00:05:12
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
吃饺子没蘸酱油进监狱了,这是真的

吃饺子没蘸酱油进监狱了,这是真的

深度报
2026-03-25 22:55:01
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
快讯!美军拒绝为以色列作战!

快讯!美军拒绝为以色列作战!

达文西看世界
2026-03-26 09:54:51
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
二战后首次!日自卫队将登陆菲律宾

二战后首次!日自卫队将登陆菲律宾

环球时报国际
2026-03-26 08:59:28
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
2026-03-26 14:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
房产
健康
家居
艺术

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

转头就晕的耳石症,能开车上班吗?

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版