如何让人形机器人拥有智慧“大脑”?今天,上海智元新创技术有限公司发布了自主研发的第一代通用具身智能基座模型——智元启元大模型(GO-1),它首创ViLLA架构,由多模态大模型(VLM)和混合专家(MoE)组成,让人形机器人可以通过人类视频学习各种技能,完成小样本快速泛化,从而降低具身智能研发门槛,让机器人持续进化。目前,这个大模型已部署到智元研发的多款机器人本体中。
今年的中国政府工作报告提出,要培育具身智能等未来产业。所谓具身智能,是一类基于物理实体进行感知和行动的智能系统,它们通过智能体与环境交互来获取信息、理解问题、做出决策并采取行动。人形机器人拥有具身智能后,将成为通用机器人,进入工厂、家庭、商超等众多场所,从事工业制造和服务业工作。
与DeepSeek等大语言模型的原理类似,要实现具身智能,也需要具身智能基座大模型的支撑,以及对大模型的大数据预训练。
智元启元大模型(GO-1)的预训练数据分类
在大数据预训练方面,智元去年底联合上海人工智能实验室、国家地方共建人形机器人创新中心和上海库帕思科技公司,发布了基于全域真实场景的百万真机数据集开源项目“AgiBot世界”。这个数据集覆盖100多种真实场景,其中家居场景占40%,餐饮和工业场景各占20%,商超和办公场景各占10%。完成数据采集的机器人任务中,约80%为长程任务,任务时长60—150秒。
基于“AgiBot世界”数据集,智元开发了启元大模型,让人形机器人拥有可不断进化的“大脑”。智元机器人研究院执行院长、具身业务部总裁姚卯青介绍,为了有效利用高质量的真机数据集和互联网上的大规模视频数据,增强机器人“大脑”的泛化能力,智元提出了ViLLA这一创新性架构。启元大模型就是基于ViLLA架构开发,由多模态大模型和混合专家组成。其中,多模态大模型可利用互联网上的海量图文数据,让人形机器人获得通用场景感知和语言理解能力,从而能理解外部世界、周边环境以及用户发出的各种指令。
智元人形机器人在学习家庭除尘技能。
启元大模型中的混合专家模块,包含隐式规划器(Latent Planner)、动作专家(Action Expert)两部分。隐式规划器的功能,是借助大量跨本体和人类操作的视频数据,让机器人“大脑”获得通用的动作理解能力。对此,姚卯青进一步解释:“尽管‘AgiBot世界’是目前全球最大的机器人真机示教数据集,但这种带动作标签的真机数据量仍然有限,远少于互联网上的数据集,所以我们采用隐式动作(Latent Actions)来建模当前帧和历史帧之间的隐式变化,然后通过隐式规划器预测这些用隐式动作,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。”
动作专家是混合专家模块中的另一组专家,其功能是借助真机数据集,让人形机器人获得精细的动作执行能力。
智元人形机器人在学习插花技能。
“通过ViLLA创新性架构,我们在5种不同复杂度的任务上测试了GO-1大模型。与已有最优模型,GO-1的成功率处于领先水平,将平均成功率提高了32%。”姚卯青介绍,在这些测试任务中,启元大模型在倒水、清理桌面、补充饮料这三个任务上的表现尤为突出,展示了人形机器人在家政等服务业中的应用前景。
据介绍,启元大模型将让机器人获得更强大的学习能力,可泛化应用到各种场景中,快速适应新任务、学习新技能。不仅是智元研发的机器人,这个大模型还能部署到其他企业和科研团队开发的机器人本体中,推动具身智能这一未来产业向通用化、开放化方向快速发展,在服务业和工业制造等领域发挥越来越大的价值。
原标题:视频|国产具身智能大模型GO-1发布,让人形机器人拥有智慧“大脑”
栏目主编:黄海华
来源:作者:解放日报 俞陶然
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.