智通财经APP获悉,1月29日,宇树科技官方账号宣布开源UnifoLM系列下面向通用人形机器人操作的视觉-语言-动作(VLA)大模型“UnifoLM-VLA-0”。该模型旨在突破传统VLLM在物理交互中的局限,通过在机器人操作数据上的继续预训练,实现了从通用"图文理解"向具备物理常识的"具身大脑"的进化。
该模型在多类任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能。针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与2D/3D空间细节,增强了模型的空间感知能力。此外,还构建了全链路动力学预测数据,模型具备更好的任务泛化性。在真机验证中,仅需单一策略即可高质量完成12类复杂的操作任务。
宇树称在三个空间理解基准上对模型进行了评估,结果显示:模型在空间感知与理解能力上较Qwen2.5-VL-7B有显著提升,并且在"no thinking"模式下可比肩Gemini-Robotics-ER 1.5。
宇树在UnifoLM-VLM-O模型的基础上集成了动作预测头(Action Head),从而构建出Uni-foLM-VLA-0。经由仿真环境与真机实验的多任务训练验证,结果显示该模型具备单模型处理多任务的通用能力,在LIBERO仿真基准测试中,公司的多任务模型取得了接近最优的性能。
在宇树G1人形机器人平台上,宇树科技团队构建了覆盖12类复杂操作任务的高质量真机数据集,并基于此对UnifoLM-VLA-0进行单一策略网络的统一端到端训练。真机实验结果表明,该模型能够在同一策略checkpoint下,稳定完成全部12项任务,在外部扰动条件下仍保持良好的执行鲁棒性与抗干扰能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.