IT之家1月29日消息,宇树今日宣布开源 UnifoLM-VLA-0大模型。
据介绍,该模型是 UnifoLM 系列下面向通用人形机器人操作的视觉-语言-动作(VLA)大模型,旨在突破传统 VLM 在物理交互中的局限,通过在机器人操作数据上的继续预训练,实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化。
![]()
宇树开源UnifoLM-VLA-0大模型
针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与2D/3D 空间细节,增强了模型的空间感知能力。
构建了全链路动力学预测数据,模型具备更好的任务泛化性。在真机验证中,仅需单一策略即可高质量完成12类复杂的操作任务。
基于 Qwen2.5-VL-7B 开源模型,宇树构建了覆盖机器人与通用场景的多任务数据集,并开展持续预训练。该数据集涵盖2D 检测与分割、任务层级分解、3D 目标检测、空间位置推理及轨迹预测等多维数据,有效提升了模型对几何空间与语义逻辑的对齐能力。
针对操作类任务,宇树对开源数据集进行了系统化清洗,最终仅利用约340小时的真机数据,进行离散动作的预测训练。在此基础上,模型集成了动作分块预测,以及前向与逆向动力学约束,实现对动作序列的统一建模,从而使 VLM 具备对机器人与物体物理交互规律的深度理解能力,并支持长时序动作规划与决策。
基于上述构建的数据集开展持续预训练后,宇树获得了 UnifoLM-VLM-0。该模型在多类任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能,相关零样本测试示例如下:
![]()
![]()
![]()
UnifoLM-VLA-0大模型相关零样本测试示例
宇树在三个空间理解基准上对模型进行了评估,结果显示:模型在空间感知与理解能力上较 Qwen2.5-VL-7B 有显著提升,并且在 "no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。
![]()
宇树在三个空间理解基准上对模型进行了评估
宇树在 UnifoLM-VLM-0模型的基础上集成了动作预测头 (ActionHead),从而构建出 Uni-foLM-VLA-0。经由仿真环境与真机实验的多任务训练验证,结果显示该模型具备单模型处理多任务的通用能力,在 LIBERO 仿真基准测试中,宇树的多任务模型取得了接近最优的性能。
![]()
在LIBERO仿真基准测试中,宇树的多任务模型取得了接近最优的性能
在宇树 G1人形机器人平台上,宇树构建了覆盖12类复杂操作任务的高质量真机数据集,并基于此对 UnifoLM-VLA-0进行单一策略网络的统一端到端训练。真机实验结果表明,该模型能够在同一策略 checkpoint 下,稳定完成全部12项任务,在外部扰动条件下仍保持良好的执行鲁棒性与抗干扰能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.