网易首页 > 网易号 > 正文 申请入驻

北京人形发布Pelican-Unified 1.0:首个统一具身基础模型,理解/推理/想象/行动四位一体

0
分享至

北京人形发布Pelican-Unified 1.0:首个统一具身基础模型,理解/推理/想象/行动四位一体
一句话概要

北京人形机器人创新中心(X-Humanoid)发布Pelican-Unified 1.0,用单一模型把"看懂场景、推理任务、想象未来、执行动作"四个能力统一进同一个梯度回路——不再靠三个独立专家系统拼 PipeLine。

为什么这件工作值得关注

具身智能走到现在,能力越来越强,但架构越来越碎。

看懂场景用 VLM,执行动作用 VLA,想象未来用世界模型——三个独立系统,靠 Pipeline 串起来。问题显而易见:感知、语言、动作分别编码,信息传递有损耗;推理是"语言独白",不受动作和想象约束;想象停留在像素层面,跟任务逻辑脱节。

"The field is not short of powerful components. What remains missing is a model in which understanding, reasoning, imagination, and action are learned as mutually conditioning parts of the same physical intelligence loop."

这句话是整篇论文的动机,也是标题里 "Unified" 的真正含义。


核心架构:怎么把四件事统一起来

Pelican-Unified 的架构可以拆成两大组件理解:

组件一:统一 VLM(理解 + 推理)

基于Qwen3-VL 4B初始化

输入:场景观测历史 + 历史动作 + 语言指令

先把多模态输入映射到共享语义空间(这是"统一理解")

然后自回归生成思维链轨迹τ_t——涵盖任务意图、物理约束、未来后果、动作选择

关键点:这个推理轨迹不是事后解释,是具身生成过程的中间表示,会被下游生成损失反向约束

推理完成后,VLM 的隐藏状态经过一个投影层,输出一个稠密循环状态 z——这是整个模型最核心的耦合表示,后续视频生成和动作预测都条件于这个 z。

组件二:UFG 统一未来生成器(想象 + 动作)

基于Wan2.2-5B初始化

关键设计:用独立世界模型做视频预测、再用独立策略头做动作生成

而是把视频 token 与动作 token嵌进同一个 Transformer 宽度,共享去噪过程

视频和动作使用相同的扩散时间步 s,由同一个 DiT 主干联合去噪

动作 token 在读出前还可以"回顾"想象的视觉 token(Action-Refine Read),让动作受想象后果约束

联合训练目标

三个损失同时反向传播至共享表示 z:

L_text:语言建模损失,对齐推理与任务语义

L_video:视频流匹配损失,迫使 z 对未来世界动态具有预测性

L_action:动作回归损失,将 z 锚定于可执行控制

这就是 "统一" 的实质性含义——不是三个模型拼在一起,而是三个能力的梯度在同一个表示上互相塑造

实验结果:统一不等于妥协

论文在三类基准上分别评测,结论很明确:统一模型没有牺牲专家级性能。

理解能力(8 个 VLM 基准,平均得分)

模型

平均得分

Qwen3-VL-4B-Instruct

58.2

基础 VLM

Gemma3-4B-IT

32.9

通用 VLM

π0.5

10.2

VLA 类

Pelican-Unified 1.0

64.7

同规模第一

具身导向基准提升尤其显著:Where2Place +28.2,PhyX +20.6。说明联合训练没有损害、反而增强了空间物理推理能力。

想象能力(WorldArena 基准)

模型

EWM Score

排名

Wan2.6

Veo3.1

MotuBrain

Pelican-Unified 1.0

人工盲评四项指标(任务成功率、可控性、时序一致性、物理合理性),Pelican-Unified 平均1.76 分(满分 2 分),排名第一,且是唯一四项同时优秀的模型。

动作能力(RoboTwin 50 任务双臂基准)

类型

模型

平均成功率

VLA

π0.5

79.8

VLA

starVLA

88.3

世界模型

AIM

93.1

世界模型

MotuBrain

95.9(第一)

统一模型

Pelican-Unified 1.0

93.5(第二)

50 个任务中,31 个达到 ≥95% 成功率,39 个达到 ≥90%。

技术溯源:X-Humanoid 团队的 Pelican 系列演进

这张脉络图值得单独说一下:

版本

定位

参数量

核心能力

局限性

Pelican-VL 1.0(2025.11)

具身 VLM

7B~72B

语义理解、时空推理、视觉可供性生成

不可直接执行动作

Pelican-Unified 1.0(2026.05)

统一具身基础模型

VLM 4B + UFG 5B

理解+推理+想象+行动四位一体

长时序几何敏感任务仍有失败

Pelican-Unified 本质上是把 Pelican-VL 的"理解大脑"装上"想象引擎"和"动作执行器",并用联合训练把三者焊死在同一个表示里。

资源直达

论文:https://arxiv.org/abs/2605.15153

项目主页(Pelican-VL):https://pelican-vl.github.io/

代码仓库:https://github.com/Open-X-Humanoid/pelican-vl

团队:Beijing Innovation Center of Humanoid Robotics (X-Humanoid)

Mbot具身智能实验室

让尖端科技触手可及,人人皆可探索未来


Mbot基础交流群等你加入,下方扫码联系

具身-杰西

Mbot具身-小助手

Mbot-视频号

Mbot-公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三十多万新能源车仅开十二天半路骤停,核心部件频发故障

三十多万新能源车仅开十二天半路骤停,核心部件频发故障

捣蛋窝
2026-05-23 06:14:53
华为推出新型堆叠技术

华为推出新型堆叠技术

半导体行业观察
2026-05-22 09:51:07
国家发改委:对外开放是中国基本国策,从未要求中国科技企业不得接受外商投资

国家发改委:对外开放是中国基本国策,从未要求中国科技企业不得接受外商投资

澎湃新闻
2026-05-22 10:38:30
马英九久违现身称没失智,精神科医师列影片7点露了馅

马英九久违现身称没失智,精神科医师列影片7点露了馅

台海新时光
2026-05-23 09:00:45
若续约2人,火箭可坐拥6大控卫!短板变优势?引援目标指向射手群

若续约2人,火箭可坐拥6大控卫!短板变优势?引援目标指向射手群

熊哥爱篮球
2026-05-23 13:05:22
DeepSeek-V4-Pro API宣布永久降价,调整为原定价的1/4

DeepSeek-V4-Pro API宣布永久降价,调整为原定价的1/4

IT之家
2026-05-22 21:20:09
1962年,李敏让爸爸给婴儿起名,毛主席冁然一笑:你公公要求真高

1962年,李敏让爸爸给婴儿起名,毛主席冁然一笑:你公公要求真高

简史档案馆
2026-05-22 11:05:03
手机壳正在悄悄吃掉你的电池寿命

手机壳正在悄悄吃掉你的电池寿命

全栈遛狗员
2026-05-18 04:51:52
万万没有想到,赖清德的父亲,非但不是日本人,竟是中国福建人!

万万没有想到,赖清德的父亲,非但不是日本人,竟是中国福建人!

星星会坠落
2026-05-22 04:14:24
连吃两记闭门羹,日本终于改口!中方态度坚决:战略互惠不是空话

连吃两记闭门羹,日本终于改口!中方态度坚决:战略互惠不是空话

华史谈
2026-05-23 09:11:54
第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

美家指南
2026-05-15 15:27:43
江西继子被后妈冷待10年,考上清华办升学宴,他拿出鉴定后妈呆住

江西继子被后妈冷待10年,考上清华办升学宴,他拿出鉴定后妈呆住

张道陵秘话
2025-05-15 19:50:15
“碳水脸”引争议,网友:令人不适的网络词!

“碳水脸”引争议,网友:令人不适的网络词!

中国日报
2026-05-21 15:28:00
意大利人拆完张雪机车破防了:设计太激进,欧洲日本根本学不来!

意大利人拆完张雪机车破防了:设计太激进,欧洲日本根本学不来!

阿芒娱乐说
2026-05-22 04:47:31
A股一周熊股出炉:最熊股跌超50%,巨力索具、金螳螂、蒙娜丽莎等上榜

A股一周熊股出炉:最熊股跌超50%,巨力索具、金螳螂、蒙娜丽莎等上榜

21世纪经济报道
2026-05-23 09:11:21
不必填海造岛!菲律宾破船赖了27年,中国要用300倍体量反将一军

不必填海造岛!菲律宾破船赖了27年,中国要用300倍体量反将一军

小兰聊历史
2026-05-22 17:28:48
路修好了也没用!中国下决心搁置瓦罕走廊:塔利班只能一旁干瞪眼

路修好了也没用!中国下决心搁置瓦罕走廊:塔利班只能一旁干瞪眼

有范又有料
2026-05-23 11:28:17
全职爸爸靠帅脸火了,全网却为他的“豪门婚姻”吵翻了

全职爸爸靠帅脸火了,全网却为他的“豪门婚姻”吵翻了

妈咪OK
2026-05-08 19:54:01
人民币贸易结算占比超20%,仅次于美元居全球第二

人民币贸易结算占比超20%,仅次于美元居全球第二

梦在深巷aqa
2026-05-23 04:52:38
为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

别让往昔的悲伤和对未来的恐惧
2026-05-13 16:03:22
2026-05-23 13:23:00
杰西讲具身 incentive-icons
杰西讲具身
一名分享AI前沿的分享官,专注具身智能前沿知识
68文章数 1关注度
往期回顾 全部

科技要闻

爆炸声中又迈一步!拆解马斯克“十二飞”

头条要闻

牛弹琴:印度的麻烦来了 "老对手"中国处境要好得多

头条要闻

牛弹琴:印度的麻烦来了 "老对手"中国处境要好得多

体育要闻

嘲讽许利民的发言,可许指导说错了吗?

娱乐要闻

歌手2026首播:胡彦斌破音 张碧晨跑调

财经要闻

股价暴跌!富途老虎是什么来头?

汽车要闻

11万级直接上四驱 银河星耀7限时权益价9.88万起

态度原创

时尚
游戏
本地
数码
亲子

520天猫把“短剧男友团”请来送礼了!将浪漫营销玩出新花样!

《生化》电影导演玩游戏数千小时!将还原玩家操作

本地新闻

用云锦的方式,打开江苏南京

数码要闻

联想推出13.3英寸超薄本IdeaPad Slim 5i 13IWC11

亲子要闻

我们家喜娜酱长大了,第一次上台表演舞蹈,看看表现咋样?

无障碍浏览 进入关怀版