网易首页 > 网易号 > 正文 申请入驻

智元机器人发布启元大模型

0
分享至

雷递网 乐天 3月11日

智元日前发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),提出了Vision-Language-Latent-Action (ViLLA) 架构。

该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低具身智能门槛,并部署到智元多款机器人本体。

据介绍,2024年底,智元推出AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBot World,智元今天正式发布智元通用具身基座大模型 Genie Operator-1(GO-1)。

GO-1:VLA进化到ViLLA

为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了
Vision-Language-Latent-Action (ViLLA) 这一架构。GO-1作为首个通用具身基座大模型,基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent Planner和Action Expert三者协同工作:

  1. VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
  2. Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
  3. Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;

下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert:

混合专家一:

Latent Planner(隐式规划器)

智元采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

  • Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth(真值),它由编码器和解码器组成。其中:
  • 编码器采用Spatial-temporal Transformer,并使用Causal Temporal Masks(时序因果掩码)。
  • 解码器采用Spatial Transformer,以初始帧和离散化的Latent Action Tokens作为输入。
  • Latent Action Tokens通过VQ-VAE的方式进行量化处理。
  • Latent Planner负责预测这些离散的Latent Action Tokens,它与VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner这组专家会逐层结合 VLM 输出的中间信息,通过Cross Entropy Loss(交叉熵损失)进行监督训练。

混合专家二:

Action Expert(动作专家)

为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,我们引入Action Expert,其采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

  • Action Expert结构设计上与Latent Planner类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的FFN和Q/K/V/O投影矩阵,它通过Denoising Process(去噪过程)逐步回归动作序列。
  • Action Expert与VLM、Latent Planner分层结合,确保信息流的一致性与协同优化。

实验效果

通过
Vision-Language-Latent-Action (ViLLA) 创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

  • 人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
  • 小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。
  • 一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。
  • 持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

智元称,GO-1大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大作用,通向更加通用全能的智能未来。

智元机器人日前推出自主研发的大型仿真框架AgiBot Digital World,为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,同步开源海量仿真数据。

雷递由媒体人雷建平创办,若转载请写明来源。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
还没收官就停播?《主角》停更真相曝光,在我看来主要3个原因!

还没收官就停播?《主角》停更真相曝光,在我看来主要3个原因!

草莓解说体育
2026-06-01 18:22:22
武汉商学院原党委书记刘志辉被查

武汉商学院原党委书记刘志辉被查

新京报
2026-06-01 21:24:41
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

扬子晚报
2026-06-01 12:26:28
李明突然离世,年仅48岁!

李明突然离世,年仅48岁!

深圳晚报
2026-06-01 16:31:16
1100万清洗!前巴萨10号离队:巅峰身价8000万 梅西接班人

1100万清洗!前巴萨10号离队:巅峰身价8000万 梅西接班人

叶青足球世界
2026-06-01 20:06:16
丧妻1月后迟重瑞近况曝光,身边有佳人陪伴,陈丽华悔不当初

丧妻1月后迟重瑞近况曝光,身边有佳人陪伴,陈丽华悔不当初

二胡的岁月如歌
2026-06-01 15:34:16
独家:原中国航天科工集团董事长曾是著名导弹专家   其妻子曾在宾馆工作? 照顾了他半生

独家:原中国航天科工集团董事长曾是著名导弹专家  其妻子曾在宾馆工作? 照顾了他半生

新浪财经
2026-05-31 15:40:03
1965年,毛泽东半开玩笑的一句牢骚,为何逼得周恩来亲手解散总理办公室?

1965年,毛泽东半开玩笑的一句牢骚,为何逼得周恩来亲手解散总理办公室?

史海孤雁
2026-05-16 17:31:12
重奖,韩足协主席宣布若球队打进本届世界杯8强将奖励30亿韩元

重奖,韩足协主席宣布若球队打进本届世界杯8强将奖励30亿韩元

懂球帝
2026-06-01 18:27:23
柬埔寨一名杨姓中国地产商人被残忍杀害 生前遭控制殴打及施虐 妻子曾被绑匪索要1300多万元赎金

柬埔寨一名杨姓中国地产商人被残忍杀害 生前遭控制殴打及施虐 妻子曾被绑匪索要1300多万元赎金

闪电新闻
2026-05-31 23:49:26
活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

火山詩话
2026-06-01 09:44:58
司马南代表不了底层,以及多所高校撤销外语学院!

司马南代表不了底层,以及多所高校撤销外语学院!

胖胖说他不胖
2026-06-01 09:55:16
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
受权发布|中华人民共和国国务院令  第837号

受权发布|中华人民共和国国务院令  第837号

新华社
2026-06-01 11:00:06
女篮世界杯中国队遭开门黑!首秀惜败德国:G2战又掀翻欧洲劲旅!

女篮世界杯中国队遭开门黑!首秀惜败德国:G2战又掀翻欧洲劲旅!

篮球快餐车
2026-06-02 02:17:47
襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

奇思妙想草叶君
2026-05-31 23:01:42
4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

李晚书
2026-06-01 10:53:54
浙江国企“塌方”  高管批量投案

浙江国企“塌方” 高管批量投案

经济那道理
2026-06-01 15:55:26
2026-06-02 04:08:49
雷递 incentive-icons
雷递
关注互联网大产业
26900文章数 73011关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

房产
游戏
旅游
本地
家居

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

又一款经典RPG神作启动重制!不止高清 期待拉满

旅游要闻

世界旅游城市联合会“会员之家”在京揭牌

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

自信舒展 高背座椅

无障碍浏览 进入关怀版