![]()
![]()
机器人凭单一策略,可完成多项复杂操作任务。
作者 | 许丽思
编辑 | 漠影
机器人前瞻1月30日报道,刚刚,宇树科技正式开源其通用人形机器人操作大模型UnifoLM-VLA-0。
![]()
这款模型通过在机器人操作数据上开展持续预训练,让机器人仅凭单一策略,就能完成多项复杂的长程操作任务,比如机器人协作整理桌面、拧开有一定阻力的瓶盖、折叠毛巾,以及在人为干扰的情况下堆叠积木、给水果分类等,泛化能力更强了。
并且,模型在空间感知能力上有了明显提升,在零样本的场景下,就可以精准推理目标所处位置、生成运动轨迹、判断物体可抓取点、完成目标物品的检测、分割与定位等。
01.
从VLM到VLA,
仅用340小时真机数据进行训练
宇树介绍,该模型基于开源视觉语言模型Qwen2.5-VL-7B演化而来。
宇树先是构建了覆盖机器人与通用场景的多任务数据集并开展持续预训练,该数据集涵盖2D检测与分割、任务层级分解、3D目标检测、空间位置推理及轨迹预测等多维数据,有效提升了模型对几何空间与语义逻辑的对齐能力。
在操作任务上,宇树对开源数据集进行了系统化清洗,最终仅使用约340小时真机数据进行离散动作预测训练。
在动作建模上,模型进一步集成了动作分块预测,并加入前向与逆向动力学约束,把动作序列统一建模,从而让VLM具备对“机器人—物体”物理交互规律的更深理解,并支持更长时序的动作规划与决策。
完成上述持续预训练后,UnifoLM-VLM-0在多类任务场景下展现出更强的空间推理能力与更可靠的多模态感知表现,相关零样本测试示例如下:
![]()
▲任务推理:根据文本推理目标物体和位置并生成移动轨迹
![]()
▲空间推理:理解空间的位置关系
![]()
▲图像定位:检测图像中物体的3D框
02.
可实现低延时实时操作,
LIBERO基准获98.7分
UnifoLM-VLM-0在“no thinking”模式下,在ERQA、RoboSpatial、Where2Place三个空间理解基准上的表现,比肩谷歌的Gemini Robotics ER 1.5。
“no thinking”模式,指的是模型不进行额外的推理过程,直接给出结果的一种运行方式。这意味着模型的空间理解能力已经被充分内化,更适合机器人在真实环境中进行低延迟实时操作。
![]()
在LIBERO仿真基准测试中,UnifoLM-VLA-0在“空间”子项获得99.0分,在“物体”子项获得100分,在“目标”子项获得99.4分,在“长序列”任务获得96.2分,平均分为98.7分。
相较于OpenVLA-OFT的平均分为97.1分、GR00T-N1.6的平均分为97.0分,UnifoLM-VLA-0较为领先。
![]()
03.
单一策略下,
稳定完成12项复杂长程任务
在宇树G1上,团队构建了覆盖12类复杂操作任务的高质量真机数据集,并基于此对UnifoLM-VLA-0进行单一策略网络的端到端统一训练。
宇树称,真机实验表明:模型能在同一策略checkpoint下稳定完成全部12项任务,并在外部扰动下保持较好的鲁棒性与抗干扰能力。
这些任务,涉及了整理收纳、多机协作、带阻力的开合旋转、多步骤长链条执行、规则推理与抗干扰纠错等不同维度,贴近机器人要真正落地的可用能力。
比如,两台G1协同收纳桌子上餐盘与垃圾,其中一台还将散落的笔递给另一台,再一起放入盒中。

G1拿起笔袋放入背包并拉上拉链;打开药瓶,将药丸倒入盒中;铺平毛巾后,折叠成正方形并放置到位。



按“红色-绿色-黄色”顺序堆叠积木,即使人为移走已堆好的积木,G1也能及时调整并重新完成堆叠。

把水果按照颜色放入对应颜色的盘子,面对人为干扰,机器人依旧可以较顺利完成。

04.
结语:从硬件生产到软件算法,
宇树加快构造全链路壁垒
2025年,宇树以5500台出货量登顶全球人形机器人销量榜首,在硬件量产端构筑起坚实壁垒的同时,正持续在软件算法领域深耕布局、打造核心优势,UnifoLM-VLA-0的落地正是其算法端的一大突破。
UnifoLM-VLA-0所展现的少数据高效训练、强空间理解及复杂场景抗干扰操作等核心能力,有望推动人形机器人领域从碎片化任务训练,向开放场景的通用化能力构建稳步迈进。
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.