![]()
Agent热潮进入机器人身体,具身智能迈入统一范式时代。
作者 |李水青
编辑 |漠影
机器人前瞻5月16日报道,昨日,北京人形机器人创新中心(简称“北京人形”)推出全球首个按“大一统”思想训练的具身智能模型——Pelican-Unify 1.0。
作为通用具身智能平台“慧思开物”的核心组件,它试图回答一个关键问题:一个真正面向物理世界的智能体,究竟应该如何构建?北京人形给出的答案是,具身智能要走向“理解-推理-想象-行动”闭环智能。
这一思路的威力,在第三方权威评测中得到了验证:Pelican-Unify 1.0在由清华、普林斯顿、北大等八所顶尖机构联合发起的World Arena全球评测中,以66.03的EWM综合得分登顶世界第一。
继旗下WoW具身世界模型登顶World Arena Data Engine(数据引擎)赛道后,北京人形由此成为全球唯一在World Arena两大核心赛道同时夺冠的企业,加冕具身智能领域首个“双冠王”。
当下,机器人不再只是“看见—执行”的机械映射,而是开始“预演未来”再行动。国家队推动具身智能生态落地、引领行业共同进步的硬核答卷,已然展开。
![]()
论文地址:
https://arxiv.org/pdf/2605.15153
01.
拿下两榜SOTA
机器人真的会先预演再行动
具身智能模型的难点,在于多种能力能否在同一个物理闭环中相互支撑。
北京人形把Pelican-Unify 1.0放进三个体系中检验:作为视觉语言模型,看它是否真正理解场景和指令;作为视觉运动策略,看它是否能稳定完成机器人动作;作为行动条件世界模型,看它是否能在动作发生前想象未来状态。
结果显示,统一模型并没有因为“大一统”而牺牲单项能力。
Pelican-Unify 1.0 综 合能力大幅超越基座Qwen3-VL-4B-Instruct,理解能力测评分数从58.2分升至64.7分,在空间接地、物理理解类具身基准中提升幅度尤为显著。
![]()
该模型视觉运动策略表现出众,通过RoboTwin五十项双臂任务测试,整体成功率达93.5%,多数高难度实操任务完成度极高。
![]()
该模型还登顶世界模型测评World Arena榜单,EWM得分66.03位居榜首,3D空间精度与物理运动质量两项核心指标同样领先,充分彰显其出色的空间构建、物理逻辑与行动约束把控能力。
![]()
更值得关注的是,北京人形并没有止步于模拟器和榜单。
在真实机器人验证中,Pelican-Unify 1.0被部署到UR5e机械臂与天宫人形机器人上,重点测试组合泛化和零样本迁移。
第一个考验是组合泛化。在UR5e上,团队仅用“插入RJ45接头”和“做防水处理”这两个原子任务的训练数据,从未让模型见过两者串联的完整演示。测试时,机器人收到一条自然语言指令:“将RJ45线缆插入3号端口并做防水处理”。它必须连续完成A再完成B。传统的VLA基线在此失败,因为它们缺少“A完成后应该发生什么”的表征。
而Pelican-Unify 1.0在完成插线后,其想象模块基于当前场景和任务意图,自主“渲染”出下一步防水操作前的未来状态,行动模块随即接续执行。在没有见过任何完整串联示范的情况下,它成功了。这是“先想象,再行动”最直接的证据。
![]()
第二个考验是零样本迁移。在天宫人形机器人上,模型仅用5个见过任务加上3个未见任务极少量(每任务50段)的视频序列进行训练。面对全新的场景和任务,它依然能够在人类盲测评估中获得最高分。
这充分证明了,一个通过“理解-推理-想象-行动”闭环训练出来的基础模型,其内化的物理常识与任务逻辑,能够支撑其在陌生环境中做出合理行为,而不是死记硬背看过的每一个动作。
可以看到,机器人不再是那个只会机械复现演示动作的“提线木偶”,它开始学会在行动之前,于内心预演未来。
02.
首个统一训练具身基础模型:
理解、推理、想象、行动本是一个闭环
Pelican-Unify 1.0 背后,是北京人形对“物理智能”本质的一次深刻反思。
行业碎片化的开发模式,其深层假设是智能可以像积木一样,先分别造出“看懂世界”、“规划路径”、“想象未来”和“执行动作”的模块,最后再拼起来。
但北京人形认为,对于一个必须在物理世界中持续进化的智能体而言,理解、推理、想象与行动从来就不是孤立的心理过程,而是同一智能闭环中不可分割的侧面。
基于这一主张,Pelican-Unify 1.0实现了三种真正的“统一”:
第一,统一理解。模型不再将视觉、语言、历史信息分别编码再拼接,而是通过一个共享的语义空间,将当前场景、语言指令、过去的动作历史、以及世界的实时状态,一次性映射为一个整体的、面向行动的任务状态。这让模型对“我看到了什么、要完成什么、已经做了什么、世界正在变成什么样”有了一个连贯的、无断裂的把握。
第二,统一推理。Pelican-Unify 1.0把任务意图、动作选择和未来后果转化为语言化、可监督的思维链,并进一步压缩为稠密潜变量z。这个z不是普通模块接口,而是理解、推理、想象和行动共享的闭环状态。它既包含任务语义,也包含未来预测和动作生成所需的信息。推理因此不再是脱离物理世界的语言独白,而是直接条件化后续生成过程的中间状态。
第三,统一生成。这是最核心的技术突破。基于上述的共享潜变量z,模型在同一个扩散解码过程中,联合生成未来的视频帧和未来的底层动作序列。视频token和动作token在同一个共享的扩散Transformer中交互、相互约束。因此,模型的“想象”不是脱离执行的视觉生成,而是服务于机器人行动的“未来预演”;模型的“行动”也不是盲目的肌肉收缩,而是被“想象”所塑造、被“推理”所框定的、有后果意识的行为。
![]()
正是这种从设计哲学到技术实现的高度统一,让机器人开始涌现出一种在模块化系统中从未见过的崭新能力:“先做梦,再行动”。
它先在自己的内心世界里,基于当前场景和任务推理,预演一遍未来会发生什么、自己应该怎么做。这个“梦”校准过后,再转化为真实的物理动作。
03.
模型架构与技术实现:
不拼接、不流水线,一个模型包圆
Pelican-Unify 1.0 之所以能实现上述的“大一统”,其背后的架构设计是一场从零开始的紧耦合设计。整个模型由两大组件构成,它们像大脑的两个半球一样紧密协作。
1、统一编码器,相当于大脑的“理解与推理”区域
这部分基于Qwen3-VL视觉语言模型初始化。它的职责是将多模态的输入——过去的观测图像、历史动作、语言指令——全部“吃”进去,然后做两件事。
首先,自回归地生成一条思维链推理轨迹,将任务意图、物理约束和未来规划用语言的形式“说”出来。
其次,它将这条思维链结束后的隐藏状态,通过一个投影头,压缩成一个稠密的、低维的闭环状态向量z。这个z,就是整个物理认知闭环的核心接口,它承载了理解与推理的最终精华,准备去指挥下游的“想象”与“行动”。
2、统一未来生成器,相当于大脑的“想象与行动”区域
这部分基于Wan2.2扩散Transformer初始化。它接收来自编码器的核心状态z,以及一个随机噪声。然后,它在一个统一的去噪过程中,通过两个不同的输出头,同时“绘制”出两样东西:未来的视频隐变量和未来的行动轨迹。
想象一下,这个生成器就像一个极具天赋的导演兼演员。它拿到剧本(状态z)后,不是先写出分镜头脚本(未来视频),再指导演员表演(行动);而是让分镜头(视频token)和演员的走位、台词(行动token)在同一个“彩排”(共享Transformer)中同步发生、相互调整。视频token约束着动作是否合理(比如手不能穿模),动作token也决定了未来画面的演化轨迹。
训练目标则是驱动这个大脑运转的“三股合力”。模型同时优化三个损失函数:语言损失,强制推理链与任务语义对齐;视频损失,迫使共享表征z能够预测世界的未来动力学;行动损失,强迫z所编码的信息具备物理可执行性。
这三项损失通过同一个共享表征反向传播,意味着“看、想、动”在梯度的层面上相互塑造。你因为“说”得对而获得的奖励,会同时强化你“看”得准和“动”得好的能力;反之亦然。
最终,这个架构的结果是:理解、推理、想象与行动,在一个统一的数学框架和训练过程中,自然地涌现为同一智能闭环的不同侧面。
04.
结语:Agent热潮进入机器人身体
具身智能迈入统一范式时代
过去一年,Agent成为AI产业最热的关键词。但当Agent走出屏幕、进入机器人身体,它面对的难度会骤然上升。一个真正有用的机器人Agent,它必须知道自己身处什么环境,推理任务如何完成,想象动作会带来什么变化,并在行动后用新结果更新下一轮判断。
Pelican-Unify 1.0 的意义在于向整个行业清晰地揭示了一个方向:通用具身智能的下一阶段,关键词是“更统一”。把智能作为一个能够将“看见、思考、想象、行动”融为一体、并在与物理世界的持续交互中协同进化的自适应系统。
当机器人开始学会“预演未来”,Agent的智能,终于有了物理的落脚点。迈向通用具身智能的赛道上,一个全新的统一范式时代,已然开启。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.