国家队出手！北京人形推出全球首个统一具身智能模型，拿下两榜SOTA，具身大脑达到世界第一梯队|轨迹|推理|机器人|视障人士

国家队出手！北京人形推出全球首个统一具身智能模型，拿下两榜SOTA，具身大脑达到世界第一梯队

2026-05-16 19:38:08　来源: 机器人前瞻

北京举报

分享至

Agent热潮进入机器人身体，具身智能迈入统一范式时代。

作者 |李水青

编辑 |漠影

机器人前瞻5月16日报道，昨日，北京人形机器人创新中心（简称“北京人形”）推出全球首个按“大一统”思想训练的具身智能模型——Pelican-Unify 1.0。

作为通用具身智能平台“慧思开物”的核心组件，它试图回答一个关键问题：一个真正面向物理世界的智能体，究竟应该如何构建？北京人形给出的答案是，具身智能要走向“理解-推理-想象-行动”闭环智能。

这一思路的威力，在第三方权威评测中得到了验证：Pelican-Unify 1.0在由清华、普林斯顿、北大等八所顶尖机构联合发起的World Arena全球评测中，以66.03的EWM综合得分登顶世界第一。

继旗下WoW具身世界模型登顶World Arena Data Engine（数据引擎）赛道后，北京人形由此成为全球唯一在World Arena两大核心赛道同时夺冠的企业，加冕具身智能领域首个“双冠王”。

当下，机器人不再只是“看见—执行”的机械映射，而是开始“预演未来”再行动。国家队推动具身智能生态落地、引领行业共同进步的硬核答卷，已然展开。

论文地址：

https://arxiv.org/pdf/2605.15153

01.

拿下两榜SOTA

机器人真的会先预演再行动

具身智能模型的难点，在于多种能力能否在同一个物理闭环中相互支撑。

北京人形把Pelican-Unify 1.0放进三个体系中检验：作为视觉语言模型，看它是否真正理解场景和指令；作为视觉运动策略，看它是否能稳定完成机器人动作；作为行动条件世界模型，看它是否能在动作发生前想象未来状态。

结果显示，统一模型并没有因为“大一统”而牺牲单项能力。

Pelican-Unify 1.0 综合能力大幅超越基座Qwen3-VL-4B-Instruct，理解能力测评分数从58.2分升至64.7分，在空间接地、物理理解类具身基准中提升幅度尤为显著。

该模型视觉运动策略表现出众，通过RoboTwin五十项双臂任务测试，整体成功率达93.5%，多数高难度实操任务完成度极高。

该模型还登顶世界模型测评World Arena榜单，EWM得分66.03位居榜首，3D空间精度与物理运动质量两项核心指标同样领先，充分彰显其出色的空间构建、物理逻辑与行动约束把控能力。

更值得关注的是，北京人形并没有止步于模拟器和榜单。

在真实机器人验证中，Pelican-Unify 1.0被部署到UR5e机械臂与天宫人形机器人上，重点测试组合泛化和零样本迁移。

第一个考验是组合泛化。在UR5e上，团队仅用“插入RJ45接头”和“做防水处理”这两个原子任务的训练数据，从未让模型见过两者串联的完整演示。测试时，机器人收到一条自然语言指令：“将RJ45线缆插入3号端口并做防水处理”。它必须连续完成A再完成B。传统的VLA基线在此失败，因为它们缺少“A完成后应该发生什么”的表征。

而Pelican-Unify 1.0在完成插线后，其想象模块基于当前场景和任务意图，自主“渲染”出下一步防水操作前的未来状态，行动模块随即接续执行。在没有见过任何完整串联示范的情况下，它成功了。这是“先想象，再行动”最直接的证据。

第二个考验是零样本迁移。在天宫人形机器人上，模型仅用5个见过任务加上3个未见任务极少量（每任务50段）的视频序列进行训练。面对全新的场景和任务，它依然能够在人类盲测评估中获得最高分。

这充分证明了，一个通过“理解-推理-想象-行动”闭环训练出来的基础模型，其内化的物理常识与任务逻辑，能够支撑其在陌生环境中做出合理行为，而不是死记硬背看过的每一个动作。

可以看到，机器人不再是那个只会机械复现演示动作的“提线木偶”，它开始学会在行动之前，于内心预演未来。

02.

首个统一训练具身基础模型：

理解、推理、想象、行动本是一个闭环

Pelican-Unify 1.0 背后，是北京人形对“物理智能”本质的一次深刻反思。

行业碎片化的开发模式，其深层假设是智能可以像积木一样，先分别造出“看懂世界”、“规划路径”、“想象未来”和“执行动作”的模块，最后再拼起来。

但北京人形认为，对于一个必须在物理世界中持续进化的智能体而言，理解、推理、想象与行动从来就不是孤立的心理过程，而是同一智能闭环中不可分割的侧面。

基于这一主张，Pelican-Unify 1.0实现了三种真正的“统一”：

第一，统一理解。模型不再将视觉、语言、历史信息分别编码再拼接，而是通过一个共享的语义空间，将当前场景、语言指令、过去的动作历史、以及世界的实时状态，一次性映射为一个整体的、面向行动的任务状态。这让模型对“我看到了什么、要完成什么、已经做了什么、世界正在变成什么样”有了一个连贯的、无断裂的把握。

第二，统一推理。Pelican-Unify 1.0把任务意图、动作选择和未来后果转化为语言化、可监督的思维链，并进一步压缩为稠密潜变量z。这个z不是普通模块接口，而是理解、推理、想象和行动共享的闭环状态。它既包含任务语义，也包含未来预测和动作生成所需的信息。推理因此不再是脱离物理世界的语言独白，而是直接条件化后续生成过程的中间状态。

第三，统一生成。这是最核心的技术突破。基于上述的共享潜变量z，模型在同一个扩散解码过程中，联合生成未来的视频帧和未来的底层动作序列。视频token和动作token在同一个共享的扩散Transformer中交互、相互约束。因此，模型的“想象”不是脱离执行的视觉生成，而是服务于机器人行动的“未来预演”；模型的“行动”也不是盲目的肌肉收缩，而是被“想象”所塑造、被“推理”所框定的、有后果意识的行为。

正是这种从设计哲学到技术实现的高度统一，让机器人开始涌现出一种在模块化系统中从未见过的崭新能力：“先做梦，再行动”。

它先在自己的内心世界里，基于当前场景和任务推理，预演一遍未来会发生什么、自己应该怎么做。这个“梦”校准过后，再转化为真实的物理动作。

03.

模型架构与技术实现：

不拼接、不流水线，一个模型包圆

Pelican-Unify 1.0 之所以能实现上述的“大一统”，其背后的架构设计是一场从零开始的紧耦合设计。整个模型由两大组件构成，它们像大脑的两个半球一样紧密协作。

1、统一编码器，相当于大脑的“理解与推理”区域

这部分基于Qwen3-VL视觉语言模型初始化。它的职责是将多模态的输入——过去的观测图像、历史动作、语言指令——全部“吃”进去，然后做两件事。

首先，自回归地生成一条思维链推理轨迹，将任务意图、物理约束和未来规划用语言的形式“说”出来。

其次，它将这条思维链结束后的隐藏状态，通过一个投影头，压缩成一个稠密的、低维的闭环状态向量z。这个z，就是整个物理认知闭环的核心接口，它承载了理解与推理的最终精华，准备去指挥下游的“想象”与“行动”。

2、统一未来生成器，相当于大脑的“想象与行动”区域

这部分基于Wan2.2扩散Transformer初始化。它接收来自编码器的核心状态z，以及一个随机噪声。然后，它在一个统一的去噪过程中，通过两个不同的输出头，同时“绘制”出两样东西：未来的视频隐变量和未来的行动轨迹。

想象一下，这个生成器就像一个极具天赋的导演兼演员。它拿到剧本（状态z）后，不是先写出分镜头脚本（未来视频），再指导演员表演（行动）；而是让分镜头（视频token）和演员的走位、台词（行动token）在同一个“彩排”（共享Transformer）中同步发生、相互调整。视频token约束着动作是否合理（比如手不能穿模），动作token也决定了未来画面的演化轨迹。

训练目标则是驱动这个大脑运转的“三股合力”。模型同时优化三个损失函数：语言损失，强制推理链与任务语义对齐；视频损失，迫使共享表征z能够预测世界的未来动力学；行动损失，强迫z所编码的信息具备物理可执行性。

这三项损失通过同一个共享表征反向传播，意味着“看、想、动”在梯度的层面上相互塑造。你因为“说”得对而获得的奖励，会同时强化你“看”得准和“动”得好的能力；反之亦然。

最终，这个架构的结果是：理解、推理、想象与行动，在一个统一的数学框架和训练过程中，自然地涌现为同一智能闭环的不同侧面。

04.

结语：Agent热潮进入机器人身体

具身智能迈入统一范式时代

过去一年，Agent成为AI产业最热的关键词。但当Agent走出屏幕、进入机器人身体，它面对的难度会骤然上升。一个真正有用的机器人Agent，它必须知道自己身处什么环境，推理任务如何完成，想象动作会带来什么变化，并在行动后用新结果更新下一轮判断。

Pelican-Unify 1.0 的意义在于向整个行业清晰地揭示了一个方向：通用具身智能的下一阶段，关键词是“更统一”。把智能作为一个能够将“看见、思考、想象、行动”融为一体、并在与物理世界的持续交互中协同进化的自适应系统。

当机器人开始学会“预演未来”，Agent的智能，终于有了物理的落脚点。迈向通用具身智能的赛道上，一个全新的统一范式时代，已然开启。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.