全球最大开源具身大模型！中国机器人跑完马拉松后开始学思考|调用|模态|智能机器人|仿生人形机器人

分享至

新智元报道

编辑：好困

【新智元导读】从马拉松冠军到最强大脑，这次的突破不再是四肢，而是灵魂。

中国人形机器人，再获突破性进展！

昨天，全球参数量最大的具身智能多模态大模型——Pelican-VL 1.0正式开源。

它不仅覆盖了7B到72B级别，能够同时理解图像、视频和语言指令，并将这些感知信息转化为可执行的物理操作。

而且还针对目前具身能力短板，在空间理解、物理推理和思维链等维度实现了系统性提升，并在12个主流公开评测基准上达到行业领先水平。

可以说，Pelican-VL 1.0的提出，打通了从「看懂世界」到「动起来」的完整智能链路。

项目主页：

https://pelican-vl.github.io/

Github：

https://github.com/Open-X-Humanoid/pelican-vl

Hugging Face：

https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B

ModelScope：

https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

而这背后，便是创造全球首个人形机器人马拉松冠军的团队——北京人形机器人创新中心。

当前，通用大模型在迁移到具身智能任务时，仍面临多维度能力欠缺的问题。

李飞飞教授提出过Think in Space的观点，强调走向具身智能需要解决空间智能问题的重要性。英伟达和谷歌也在研究中指出，具身领域的大模型必须具备物理智能，并相继推出了Cosmos-Reason和Gemini-RoboticsER这类面向具身场景的多模态大模型。

无独有偶，创新中心也希望通过全面开源Pelican-VL这一基础大脑模型，帮助更多具身智能体获得更强的认知与决策能力，并在意图理解、长程任务规划推理等多类场景中实现性能提升。

具体来说，通过「刻意练习」（DPPO）训练范式，Pelican-VL在不断自我诊断与纠错中提升推理与规划能力，使模型像人类一样在失败中学习，从而实现了视觉理解、语言表达和物理执行的深度融合。

凭借这一机制，Pelican-VL在多个维度展现出突破性能力：

具备跨模态的理解与推理能力，能在复杂环境中识别目标、推断物体功能与可供性；
具备时间-空间认知，能理解动作的顺序与因果关系。

模型的自进化循环使其在每一轮训练后都能修正弱点，形成持续强化的学习闭环。Pelican-VL不仅是一种模型，更是一个能够驱动机器人系统不断进化的「智能引擎」。

总体上，论文报告称相较基线模型，在空间理解和时间推理等能力上出现显著提升，并在若干公开基准上超过了部分100B量级的开源模型。

Pelican-VL的推出不仅是一次技术突破，更为产业界与学术界带来了双重启示。

它首先构建了一套贯通「视觉理解—长程规划—物理操作」的通用训练范式，提供了一个可复用、可扩展的范式，降低了具身智能研发的门槛。

与此同时，团队开放了模型与推理框架，为科研机构和企业提供了一个可自由定制、快速迭代的智能基座，加速了从实验到落地的过程。

更深层的意义在于，Pelican-VL让「机器人自主学习和反思」从理念走向现实。

它的「刻意练习」机制使模型能在错误中总结经验、持续进化，如同人类通过反复训练掌握技能。

这意味着未来的机器人不再只是机械执行者，而是具备认知与改进能力的学习体。

可以想象，在家庭或工业场景中，它将能够自主判断物体用途、调节操作力度、优化行动策略——从被动执行迈向主动理解与自我成长，标志着具身智能迈入真正的「学习时代」。

智能抓取

实现精细抓取泛化操作新突破

当抓取一个水杯或一枚鸡蛋时，基于Pelican-VL的大脑会瞬间完成一系列精密的操作：

通过视觉预判物体属性、在接触瞬间施加恰到好处的力道、并在触碰后根据手感微调抓力。

这套由主动预测、触觉适应与记忆更新构成的「感知运动闭环」，是灵巧抓取的关键。

而这项能力正是具身智能机器人与物理世界交互的基础，但却面临着触觉感知与运动灵活的协同难、复杂场景下的泛化难、算法与数据制约等等难题，目前行业内即便有相关技术突破，也仍未完全解决大规模落地的难题。

如今，Pelican-VL驱动的机器人抓取框架，成功复现并实现了这一高级智能。

仿生核心：Pelican-VL构建的智能抓取闭环

技术框架严格遵循了人类感知运动的三个核心环节，并将其转化为可执行的机器人系统：

1. 主动预测：提供精准的「第一印象」

在机械臂接触物体前，Pelican-VL大模型凭借其卓越的视觉感知与真实世界物理推理能力，仅通过视觉输入，就能精准预测出物体的物理属性（如材质、易碎度），并生成初始抓取力。

这为机器人提供了如同人类般的「先见之明」，使其从指尖接触的一刻起，就具备了恰到好处的基准夹持力，通过模型提供前馈信息缩短闭环控制稳定时间。

2. 触觉适应：实现毫秒级的「手感微调」

在抓取和操控过程中，指尖的触觉传感器会实时传回微滑移、受力分布等数据。系统通过一个同步的在线摩擦估计与自适应抓取控制模块，像人类神经反射一样，持续、快速地微调抓力。

这不仅确保了抓取的稳定性，更关键的是能动态适应不确定因素，避免对精致、柔软的物品造成损伤。

3. 记忆更新：打造持续进化的「经验库」

每次抓取任务完成后，系统会对比预测与实际感官结果的差异，并将这次成功的交互经验存储在一个物理记忆图谱中。

当下一次遇到相同或类似的物体时，Pelican-VL会优先调用这个更新、更精确的记忆来指导预测。使机器人系统具备持续学习的能力，每一次抓取都在为下一次更精准、更柔和的操作打下基础。

实战验证：轻松拿捏精致与柔软物体

在实际机器人测试中，该框架展现出了卓越的性能。

从接近、加载、提升、持稳到运输归还的完整七阶段抓取流程中，Pelican-VL驱动的机器人能稳定操作一系列精致与柔性物体。

「看得准」：由Pelican-VL提供的精准初始力先验，极大地加速了后续自适应控制器的收敛过程。
「抓得稳」：在线控制器在提升、移动过程中持续动态调整抓力，有效应对惯性等扰动，确保抓取万无一失。
「学得快」：整个交互过程形成的经验被存入知识图谱，系统像一位经验丰富的老师傅，越用越熟练。

通过将Pelican-VL大模型的强大认知能力与实时控制、记忆系统深度融合，机器人抓取从简单的「执行命令」升级为了具备预测、反应与学习能力的智能行为。

这一能力使机器人在低成本、低样本的条件下依然能够实现高度泛化、更加柔性的抓取表现，为行业带来了真正可规模化落地的智能抓取方案。

这不仅是技术上的一个里程碑，更为机器人在复杂、非结构化环境中真正实现自主操作，打开了无限可能的大门。

VLM让VLA实现能力跃迁

在典型的Vision–Language–Action（VLA）系统里，Pelican-VL扮演着「视觉语言大脑」的角色，为机器人提供强大的环境感知和指令理解能力。

它将摄像头所见与自然语言指令结合，构建起对场景的多模态表征，然后输出可供后续决策单元使用的结构化信息。

也就是说，Pelican-VL负责「看图听话」，理解指令和环境，VLA负责跨机器人应用；二者组合可以在多种机器人上执行多任务。

有了这样的基础，系统可以完成长时序、多步骤的任务规划和执行。

Pelican-VL等具身智能模型可部署在商超、家居等多种真实场景中，通过视觉-语言感知辅助多步任务规划

论文中演示了一个生活场景下的复合指令：例如「把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶，再把衣服放入洗衣机」。

Pelican-VL首先感知房间物体和布局，构建出整个环境的语义表示；接着根据指令自动生成行动序列：依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。

在这一过程中，模型不断更新内部环境状态，调整计划并适应实际情况，实现了自然语言指令的自主分解和执行。

简而言之，Pelican-VL构成了VLA系统的认知前端，为长期规划和指令执行提供跨模态的信息支持，使机器人能够像人类一样将复杂任务拆解并落地操作。

商超场景-pelican超市收银员

家庭场景-pelican家务整理助手

长程任务场景-pelican实验助手

同时，在快慢系统、端到端等诸多架构中，前沿探索者们也一直在致力于研究当VLA以VLM为基座时，VLM各项能力为度对VLA模型所带来的性能增益。

例如DeepMind的RT-Affordance，李飞飞的ReKep以及Sergey Levine的Training Strategies for Efficient Embodied Reasoning等著名学者和机构都曾探讨过可供性、思维链等能力对于具身操作的重要性。

对此，Pelican-VL针对性地进行了能力提升，并在多个维度中达到行业领先水平。

RT-Affordance项目地址：https://snasiriany.me/rt-affordance

ReKep项目地址：https://rekep-robot.github.io/

跨本体具身大脑实现多机协作

Pelican-VL具备不同层级的机器人任务规划调度能力，可根据场景生成机器人行为规划，并将其转化为具体机器人功能函数的执行调用，作为多机器人系统的任务调度器。

论文中给出一个多机器人协作流水线的开发示例：

在一个灯泡质检流程中，Pelican-VL将任务按机器人拆分为若干行为层任务，进而生成不同机器人动作层的函数调用。

例如，它会生成对「轮式人形机器人」执行「检查电控柜并启动系统」的函数调用指令，也会为双臂机器人生成「对灯泡进行结构与功能检测」的调用。

对于通用的操作函数，生成所需的控制参数，由专门的运动规划模块将其转化为关节轨迹和夹爪动作。

这种方式类似于一个项目经理给不同的团队下达精确的工作指令，Pelican-VL则通过多轮对话和分步指令，确保多台机器人的协同工作。

基于稳定多视角可供性的零样本操作

在更加通用的操作场景下，论文也给出了一个基于可供性进行任意物体操作的例子。

Pelican-VL先输出详细的视觉定位和功能性描述（如目标物体的抓取点、放置位置等），然后利用函数调用机制触发操作。

例如在通用抓取演示中，它会先生成多视角下的一致性预估（如抓取点、避障区域）以保证空间定位准确；接着将这些计划通过接口调用下发给运动控制单元。

这一流程就像「思维链」式的中间规划：模型内部先思考出清晰的步骤，再把每步落成可执行的函数调用，确保执行过程可控且透明。

通过函数调用，Pelican-VL不仅能处理单机任务，也可管理多机器人协作任务，进一步彰显了其在复杂系统中的实用性。

结语

此次Pelican-VL的开源，对于人形机器人产业与研究而言带来了两个正向价值：

首先它提供了一整套「视觉理解→长程规划→物理操作」串联的可复用训练范式，降低了在机器人中使用 VLM 的门槛；

其次，借助开源基础模型和推理代码，所有其他实验室或企业都可以在这个「脑」上做定制化训练，加速人形机器人在各行各业的落地探索。

作为拿下过全球首个人形机器人马拉松冠军、百米赛跑冠军的团队，北京人形机器人创新中心已经推出了具身智能的通用硬件平台「具身天工」和通用软件平台「慧思开物」两个开放平台，如今又在VLM上实现了重大突破。

不难看出，一切都是为产业落地提供更良好土壤，让国内的机器人厂商和开发者可以自由使用与定制人形机器人，加速研发进程，并且正在让具身智能机器人从最能跑，演化到最聪明和最好用的更高阶段。

根据了解，目前北京人形机器人创新中心还在推进「千台机器人真实场景数据采集计划」，让上千台机器人在工厂、仓库、酒店等场景中执行任务并采集数据。

而这些规模化的多模态数据与Pelican-VL结合，将推动其在制造业自动化、智能物流、零售无人化和家居服务等多领域的快速适配和优化。

对于制造业企业来说，基于Pelican-VL快速开发特定场景下的应用方案，可大大降低开发成本和难度。

长期来看，Pelican-VL及其后续版本将促进国内形成完善的通用机器人智能平台，推动更多种类的机器人像安装「通用智能操作系统」一样迅速获取新能力，让人形机器人更低门槛、低成本、高效率的走进不同制造业、工业体系。

参考资料：

https://pelican-vl.github.io/

https://github.com/Open-X-Humanoid/pelican-vl

https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B

https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

全球最大开源具身大模型！中国机器人跑完马拉松后开始学思考

比亚迪销冠！特斯拉2025年交付量跌逾8%

委首都突遭美军袭击 事发前"五角大楼披萨指数"上升

委首都突遭美军袭击 事发前"五角大楼披萨指数"上升

快船似乎又行了

“国服嫂子”司晓迪，曝与多位男星私照

具身智能抢人大战：毕业一年 年薪300万

奕派科技全年销量275,752辆 同比增长28.3

态度原创

15幅 苏联时期静物与花卉油画

四款育碧新游将于Q1推出：不到三个月就能爽玩！

睡衣穿对了，连躺平都带着高级感

4-6K谁家强？小米第一，苹果第二，剩下的自己看

“双减”四年 啥变了？——作业写到9点？现在娃半小时就搞定

委首都突遭美军袭击事发前"五角大楼披萨指数"上升

委首都突遭美军袭击事发前"五角大楼披萨指数"上升

具身智能抢人大战：毕业一年年薪300万

奕派科技全年销量275,752辆同比增长28.3

15幅苏联时期静物与花卉油画

“双减”四年啥变了？——作业写到9点？现在娃半小时就搞定