网易首页 > 网易号 > 正文 申请入驻

全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考

0
分享至


新智元报道

编辑:好困

【新智元导读】从马拉松冠军到最强大脑,这次的突破不再是四肢,而是灵魂。

中国人形机器人,再获突破性进展!

昨天,全球参数量最大的具身智能多模态大模型——Pelican-VL 1.0正式开源。

它不仅覆盖了7B到72B级别,能够同时理解图像、视频和语言指令,并将这些感知信息转化为可执行的物理操作。

而且还针对目前具身能力短板,在空间理解、物理推理和思维链等维度实现了系统性提升,并在12个主流公开评测基准上达到行业领先水平。

可以说,Pelican-VL 1.0的提出,打通了从「看懂世界」到「动起来」的完整智能链路。


项目主页:

https://pelican-vl.github.io/

Github:

https://github.com/Open-X-Humanoid/pelican-vl

Hugging Face:

https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B

ModelScope:

https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

而这背后,便是创造全球首个人形机器人马拉松冠军的团队——北京人形机器人创新中心。

当前,通用大模型在迁移到具身智能任务时,仍面临多维度能力欠缺的问题。

李飞飞教授提出过Think in Space的观点,强调走向具身智能需要解决空间智能问题的重要性。英伟达和谷歌也在研究中指出,具身领域的大模型必须具备物理智能,并相继推出了Cosmos-Reason和Gemini-RoboticsER这类面向具身场景的多模态大模型。

无独有偶,创新中心也希望通过全面开源Pelican-VL这一基础大脑模型,帮助更多具身智能体获得更强的认知与决策能力,并在意图理解、长程任务规划推理等多类场景中实现性能提升。


具体来说,通过「刻意练习」(DPPO)训练范式,Pelican-VL在不断自我诊断与纠错中提升推理与规划能力,使模型像人类一样在失败中学习,从而实现了视觉理解、语言表达和物理执行的深度融合。

凭借这一机制,Pelican-VL在多个维度展现出突破性能力:

  • 具备跨模态的理解与推理能力,能在复杂环境中识别目标、推断物体功能与可供性;

  • 具备时间-空间认知,能理解动作的顺序与因果关系。

模型的自进化循环使其在每一轮训练后都能修正弱点,形成持续强化的学习闭环。Pelican-VL不仅是一种模型,更是一个能够驱动机器人系统不断进化的「智能引擎」。

总体上,论文报告称相较基线模型,在空间理解和时间推理等能力上出现显著提升,并在若干公开基准上超过了部分100B量级的开源模型。



Pelican-VL的推出不仅是一次技术突破,更为产业界与学术界带来了双重启示。

它首先构建了一套贯通「视觉理解—长程规划—物理操作」的通用训练范式,提供了一个可复用、可扩展的范式,降低了具身智能研发的门槛。

与此同时,团队开放了模型与推理框架,为科研机构和企业提供了一个可自由定制、快速迭代的智能基座,加速了从实验到落地的过程。

更深层的意义在于,Pelican-VL让「机器人自主学习和反思」从理念走向现实。

它的「刻意练习」机制使模型能在错误中总结经验、持续进化,如同人类通过反复训练掌握技能。

这意味着未来的机器人不再只是机械执行者,而是具备认知与改进能力的学习体。

可以想象,在家庭或工业场景中,它将能够自主判断物体用途、调节操作力度、优化行动策略——从被动执行迈向主动理解与自我成长,标志着具身智能迈入真正的「学习时代」。

智能抓取

实现精细抓取泛化操作新突破

当抓取一个水杯或一枚鸡蛋时,基于Pelican-VL的大脑会瞬间完成一系列精密的操作:

通过视觉预判物体属性、在接触瞬间施加恰到好处的力道、并在触碰后根据手感微调抓力。

这套由主动预测、触觉适应与记忆更新构成的「感知运动闭环」,是灵巧抓取的关键。

而这项能力正是具身智能机器人与物理世界交互的基础,但却面临着触觉感知与运动灵活的协同难、复杂场景下的泛化难、算法与数据制约等等难题,目前行业内即便有相关技术突破,也仍未完全解决大规模落地的难题。

如今,Pelican-VL驱动的机器人抓取框架,成功复现并实现了这一高级智能。


仿生核心:Pelican-VL构建的智能抓取闭环

技术框架严格遵循了人类感知运动的三个核心环节,并将其转化为可执行的机器人系统:

1. 主动预测:提供精准的「第一印象」

在机械臂接触物体前,Pelican-VL大模型凭借其卓越的视觉感知与真实世界物理推理能力,仅通过视觉输入,就能精准预测出物体的物理属性(如材质、易碎度),并生成初始抓取力。

这为机器人提供了如同人类般的「先见之明」,使其从指尖接触的一刻起,就具备了恰到好处的基准夹持力,通过模型提供前馈信息缩短闭环控制稳定时间。

2. 触觉适应:实现毫秒级的「手感微调」

在抓取和操控过程中,指尖的触觉传感器会实时传回微滑移、受力分布等数据。系统通过一个同步的在线摩擦估计与自适应抓取控制模块像人类神经反射一样,持续、快速地微调抓力。

这不仅确保了抓取的稳定性,更关键的是能动态适应不确定因素,避免对精致、柔软的物品造成损伤

3. 记忆更新:打造持续进化的「经验库」

每次抓取任务完成后,系统会对比预测与实际感官结果的差异,并将这次成功的交互经验存储在一个物理记忆图谱中

当下一次遇到相同或类似的物体时,Pelican-VL会优先调用这个更新、更精确的记忆来指导预测。使机器人系统具备持续学习的能力,每一次抓取都在为下一次更精准、更柔和的操作打下基础

实战验证:轻松拿捏精致与柔软物体

在实际机器人测试中,该框架展现出了卓越的性能。

从接近、加载、提升、持稳到运输归还的完整七阶段抓取流程中,Pelican-VL驱动的机器人能稳定操作一系列精致与柔性物体。

  • 看得准:由Pelican-VL提供的精准初始力先验,极大地加速了后续自适应控制器的收敛过程。

  • 抓得稳:在线控制器在提升、移动过程中持续动态调整抓力,有效应对惯性等扰动,确保抓取万无一失。

  • 学得快:整个交互过程形成的经验被存入知识图谱,系统像一位经验丰富的老师傅,越用越熟练。

通过将Pelican-VL大模型的强大认知能力与实时控制、记忆系统深度融合,机器人抓取从简单的「执行命令」升级为了具备预测、反应与学习能力的智能行为。

这一能力使机器人在低成本低样本的条件下依然能够实现高度泛化、更加柔性的抓取表现,为行业带来了真正可规模化落地的智能抓取方案。

这不仅是技术上的一个里程碑,更为机器人在复杂、非结构化环境中真正实现自主操作,打开了无限可能的大门。

VLM让VLA实现能力跃迁

在典型的Vision–Language–Action(VLA)系统里,Pelican-VL扮演着「视觉语言大脑」的角色,为机器人提供强大的环境感知和指令理解能力。

它将摄像头所见与自然语言指令结合,构建起对场景的多模态表征,然后输出可供后续决策单元使用的结构化信息。

也就是说,Pelican-VL负责「看图听话」,理解指令和环境,VLA负责跨机器人应用;二者组合可以在多种机器人上执行多任务。

有了这样的基础,系统可以完成长时序、多步骤的任务规划和执行。


Pelican-VL等具身智能模型可部署在商超、家居等多种真实场景中,通过视觉-语言感知辅助多步任务规划

论文中演示了一个生活场景下的复合指令:例如「把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶,再把衣服放入洗衣机」。

Pelican-VL首先感知房间物体和布局,构建出整个环境的语义表示;接着根据指令自动生成行动序列:依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。

在这一过程中,模型不断更新内部环境状态,调整计划并适应实际情况,实现了自然语言指令的自主分解和执行。

简而言之,Pelican-VL构成了VLA系统的认知前端,为长期规划和指令执行提供跨模态的信息支持,使机器人能够像人类一样将复杂任务拆解并落地操作。

商超场景-pelican超市收银员

家庭场景-pelican家务整理助手

长程任务场景-pelican实验助手

同时,在快慢系统、端到端等诸多架构中,前沿探索者们也一直在致力于研究当VLA以VLM为基座时,VLM各项能力为度对VLA模型所带来的性能增益。

例如DeepMind的RT-Affordance,李飞飞的ReKep以及Sergey Levine的Training Strategies for Efficient Embodied Reasoning等著名学者和机构都曾探讨过可供性、思维链等能力对于具身操作的重要性

对此,Pelican-VL针对性地进行了能力提升,并在多个维度中达到行业领先水平。


RT-Affordance项目地址:https://snasiriany.me/rt-affordance


ReKep项目地址:https://rekep-robot.github.io/

跨本体具身大脑实现多机协作

Pelican-VL具备不同层级的机器人任务规划调度能力,可根据场景生成机器人行为规划,并将其转化为具体机器人功能函数的执行调用,作为多机器人系统的任务调度器。

论文中给出一个多机器人协作流水线的开发示例:

在一个灯泡质检流程中,Pelican-VL将任务按机器人拆分为若干行为层任务,进而生成不同机器人动作层的函数调用。

例如,它会生成对「轮式人形机器人」执行「检查电控柜并启动系统」的函数调用指令,也会为双臂机器人生成「对灯泡进行结构与功能检测」的调用。

对于通用的操作函数,生成所需的控制参数,由专门的运动规划模块将其转化为关节轨迹和夹爪动作。

这种方式类似于一个项目经理给不同的团队下达精确的工作指令,Pelican-VL则通过多轮对话和分步指令,确保多台机器人的协同工作。

基于稳定多视角可供性的零样本操作

在更加通用的操作场景下,论文也给出了一个基于可供性进行任意物体操作的例子。

Pelican-VL先输出详细的视觉定位和功能性描述(如目标物体的抓取点、放置位置等),然后利用函数调用机制触发操作。

例如在通用抓取演示中,它会先生成多视角下的一致性预估(如抓取点、避障区域)以保证空间定位准确;接着将这些计划通过接口调用下发给运动控制单元。

这一流程就像「思维链」式的中间规划:模型内部先思考出清晰的步骤,再把每步落成可执行的函数调用,确保执行过程可控且透明。

通过函数调用,Pelican-VL不仅能处理单机任务,也可管理多机器人协作任务,进一步彰显了其在复杂系统中的实用性。


结语

此次Pelican-VL的开源,对于人形机器人产业与研究而言带来了两个正向价值:

  • 首先它提供了一整套「视觉理解→长程规划→物理操作」串联的可复用训练范式,降低了在机器人中使用 VLM 的门槛;

  • 其次,借助开源基础模型和推理代码,所有其他实验室或企业都可以在这个「脑」上做定制化训练,加速人形机器人在各行各业的落地探索。

作为拿下过全球首个人形机器人马拉松冠军、百米赛跑冠军的团队,北京人形机器人创新中心已经推出了具身智能的通用硬件平台「具身天工」和通用软件平台「慧思开物」两个开放平台,如今又在VLM上实现了重大突破。

不难看出,一切都是为产业落地提供更良好土壤,让国内的机器人厂商和开发者可以自由使用与定制人形机器人,加速研发进程,并且正在让具身智能机器人从最能跑,演化到最聪明和最好用的更高阶段。

根据了解,目前北京人形机器人创新中心还在推进「千台机器人真实场景数据采集计划」,让上千台机器人在工厂、仓库、酒店等场景中执行任务并采集数据。

而这些规模化的多模态数据与Pelican-VL结合,将推动其在制造业自动化、智能物流、零售无人化和家居服务等多领域的快速适配和优化。

对于制造业企业来说,基于Pelican-VL快速开发特定场景下的应用方案,可大大降低开发成本和难度。

长期来看,Pelican-VL及其后续版本将促进国内形成完善的通用机器人智能平台,推动更多种类的机器人像安装「通用智能操作系统」一样迅速获取新能力,让人形机器人更低门槛、低成本、高效率的走进不同制造业、工业体系。

参考资料:

https://pelican-vl.github.io/

https://github.com/Open-X-Humanoid/pelican-vl

https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B

https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
回村建房7个月,前后被邻居投诉4次,第四次让我断了农村养老的梦

回村建房7个月,前后被邻居投诉4次,第四次让我断了农村养老的梦

人间百态大全
2026-01-11 06:45:03
经济越不好,这3大行业反而越赚钱,这是普通人的机会

经济越不好,这3大行业反而越赚钱,这是普通人的机会

第一桶金学派
2025-09-30 22:51:31
本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

明智家庭教育
2026-01-31 10:29:14
亲生父母姐弟联手!温州富豪被夺12亿家产,强行关进精神病院

亲生父母姐弟联手!温州富豪被夺12亿家产,强行关进精神病院

李砍柴
2026-02-14 23:01:28
公认“最命苦”的三大星座,其实全是性格惹的祸,太扎心!

公认“最命苦”的三大星座,其实全是性格惹的祸,太扎心!

朗威谈星座
2026-02-19 12:25:00
中国向乌克兰贷款36亿美元,实施“一揽子”援助

中国向乌克兰贷款36亿美元,实施“一揽子”援助

长江说正事
2026-02-19 12:01:35
越南人镜头下的自卫反击战

越南人镜头下的自卫反击战

深度报
2026-02-14 20:52:43
官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

老沮系戏精北鼻
2026-01-08 11:59:03
1988年,邓小平主张物价闯关,陈云反对:不拿工资的农民怎么办?

1988年,邓小平主张物价闯关,陈云反对:不拿工资的农民怎么办?

帝哥说史
2026-02-01 06:30:03
60年,林彪到庐山疗养,贺子珍知道后上山看望:小林,主席在吗?

60年,林彪到庐山疗养,贺子珍知道后上山看望:小林,主席在吗?

春秋砚
2026-01-27 09:30:06
刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

世界圈
2026-02-13 08:50:26
日本“色情业”怪相:店开不下去,大久保公园却生意更好了

日本“色情业”怪相:店开不下去,大久保公园却生意更好了

这里是东京
2026-02-17 16:20:51
年关将近儿女将回,再婚老伴溜了:"10口人,你自己伺候去吧"

年关将近儿女将回,再婚老伴溜了:"10口人,你自己伺候去吧"

秀秀情感课堂
2026-02-18 18:15:03
菲律宾变天?弹劾缠身求变 杜特尔特之女参选总统 小马科斯送三个字

菲律宾变天?弹劾缠身求变 杜特尔特之女参选总统 小马科斯送三个字

爱下厨的阿酾
2026-02-19 11:59:03
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
央视女外卖员短片被骂,骆驼祥子拉黄包车,不是为了欣赏沿途风景

央视女外卖员短片被骂,骆驼祥子拉黄包车,不是为了欣赏沿途风景

壹月情感
2025-12-02 16:42:19
1952 年郑洞国进京任职,妻嫌薪低改嫁,20 年后哭着找上门

1952 年郑洞国进京任职,妻嫌薪低改嫁,20 年后哭着找上门

唠叨说历史
2025-12-24 14:47:32
委内瑞拉再生变!特朗普也没想到,当初留下这条命,会有这么一天

委内瑞拉再生变!特朗普也没想到,当初留下这条命,会有这么一天

标体
2026-02-18 21:49:14
毛主席的警卫排长韩伟逝世前,嘱咐儿子:把我的遗骨埋到湘江边

毛主席的警卫排长韩伟逝世前,嘱咐儿子:把我的遗骨埋到湘江边

历史龙元阁
2026-02-18 11:10:10
68岁赵本山蹲炕头吃酸菜炖鹅,那双掉漆筷子比好多人朋友圈还真实

68岁赵本山蹲炕头吃酸菜炖鹅,那双掉漆筷子比好多人朋友圈还真实

喜欢历史的阿繁
2026-02-17 23:12:52
2026-02-19 13:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14554文章数 66630关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

旅游
本地
亲子
房产
军事航空

旅游要闻

这些乡村何以最佳(余音)

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

三岁女儿在家带妈妈找爸爸的私房钱

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

军事要闻

金正恩出席火箭炮赠送仪式 强调确保朝鲜安全环境

无障碍浏览 进入关怀版