网易首页 > 网易号 > 正文 申请入驻

北京人形开源最新VLM模型,推动具身智能再迈关键一步 !

0
分享至

11月13日,北京人形机器人创新中心全面开源具身智能VLM模型——Pelican-VL 1.0。该模型覆盖7B、72B参数规模,是迄今为止“最大规模的开源具身多模态大模型”,同时,也是迄今为止全球性能最强大的具身智能VLM模型,根据测试,其性能超越GPT-5 同类模型15.79% ,与Google gemini 系列模型相比提升19.25%,同时也超越通义千问、书生万象等国内模型,成为了目前最强的开源具身多模态大模型 。



另外值得注意的是,Pelican-VL的核心主创团队都是由女性组成,这也充分体现了女性力量在我国科技研发中的重要贡献。该团队还提出了一套全新的DPPO(刻意训练)训练范式,是全球首创的具身多模态大模型后训练自进化算法框架。凭借DPPO,Pelican-VL 实现【性能最强】这一目标使用的数据量为200K,仅仅是其他大模型的1/10甚至1/50,是名副其实的开源VLM性价比之王。

Pelican-VL 1.0 的开源,能够大幅提升具身智能在商业服务、工业泛工业、高危特种作业、家庭服务等多种真实场景中,通过视觉-语言感知辅助多步任务规划的能力。而VLM作为目前实现机器人全自主的核心,Pelican的开源也将推动我国具身智能全自主发展。



本次开源的Pelican-VL 1.0的核心优势在于深度整合海量数据与自适应学习机制,在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU-小时;团队从原始数据中蒸馏出的包含数亿 token 的高质量元数据以做训练基石。基于上述优势,Pelican-VL 1.0实现了在基线基础上性能提升20.3%,平均超过Qwen3-VL系列、InternVL3.5系列等同级别开源模型10.6%。

得益于“刻意练习”DPPO(Deliberate Practice Policy Optimization)训练范式,Pelican-VL 就像一名刻苦钻研的学生:每次训练循环都会“看视频—自主练习—发现错误—纠正提升”。通过DPPO 模仿人类元认知的学习方式,通过强化学习(RL)探索弱点、生成失败样本,再进行有针对性的监督微调(SFT),让模型不断自我纠错和迭代进步。

就像学生做错题后总结经验一样,Pelican-VL 能在训练中发现“薄弱知识点”并补齐,从而持续提高在视觉-语言和具身任务上的能力。通过这种机制,Pelican-VL 能够更准确地理解图像内容、语言指令和物理常识,最终在决策和操作执行环节中,实现了具身智能在空间-时间推理和动作规划方面的大幅突破。

VLM,让具身拥有智能

人形机器人无疑是目前AI技术在普通人认知里最具象的展现,而让机器人真正能够做到服务人类,一直都是全球研发团队所追求的目标,但这并不容易,背后是具身智能体对于空间-时间的理解不足,以及多步骤长线程复杂决策的能力缺失造成的困境。

在典型的Vision–Language–Action (VLA) 系统里,Pelican-VL 扮演着“视觉语言大脑”的角色,为机器人提供强大的环境感知和指令理解能力。它将摄像头所见与自然语言指令结合,构建起对场景的多模态表征,然后输出可供后续决策单元使用的结构化信息。也就是说,Pelican-VL负责“看图听话”,理解指令和环境,VLA负责跨机器人应用;简而言之,Pelican-VL 构成了VLA系统的认知前端,为长期规划和指令执行提供跨模态的信息支持,使机器人能够像人类一样将复杂任务拆解并落地操作。

而由于端到端VLA直出的模型存在黑箱性,机器人虽然可以理解人类指令,但最终执行的动作却不可控,而分层的模型则是先建模、再规划、最后执行,虽然解决了黑箱风险,但也产生了新的信息传导误差问题,信息随着每一层模型的传递,可能会在某一层产生微小误差,这一误差会在后续环节呈现指数级的扩散。

北京人形的解法是让VLM和世界模型相互纠偏作为大脑,再与VLA等构建的技能库模型协作。通过将VLM部署在云端,用于理解指令、规划任务与生成策略,世界模型则对物理世界进行建模与预测,VLM规划的策略在世界模型中进行预演,预测执行策略后的结果。二者通过反馈机制相互作用,具象化的理解策略的后果,根据好坏精进能力,VLM能力提升后又反向修正和提升世界模型的预测准确性,以此帮助机器人实现能力跃迁的关键。

以下面这个复合指令为例:“把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶,再把衣服放入洗衣机”。Pelican-VL 首先将会感知房间物体和布局,构建出整个环境的语义表示;接着根据指令自动生成行动序列:依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。



作为创造全球首个人形机器人马拉松冠军的团队,北京人形致力于让具身智能体从最能跑到最聪明、最好用的演进,本次Pelican-VL的开源也代表着北京人形在具身智能领域的又一重大突破。

而Pelican-VL代表了国内具身智能的一种端到端解法,它和Google提出的RT-2有着相似特点,都是追求单模型解决感知到执行,但不同于RT-2基于PaLM-E、PaLI-X等预训练模型微调的思路,Pelican-VL是从零开始构建大规模具身训练集并使用DPPO循环自我演练,而与SayCan、GPT-5相比,它则更强调开放性和端到端的控制输出,为不同机器人提供统一的智能“大脑”解决方案。

因此,Pelican-VL不仅具备目前具身智能大模型里最大的规模、最强的性能,也能够帮助人形机器人更好的感知空间-时间、实现具身交互,并且在训练中进行自我纠错与迭代。

开源当天,北京人形进行了直播演示和技术解读,邀请了《商业漫谈 Jane’s Talk》创始人、科技媒体人卫诗婕与主创成员深度对话,不仅详细展现了具身智能大脑Pelican-VL全面领先的性能,并拆解Pelican-VL创新的技术架构,还充分展示了女性研发成员在具身智能模型领域的创新力量。



用“最低”的门槛,激发“最高”的产业活力

北京人形希望通过Pelican-VL 的开放为产业落地提供更良好土壤,让广大机器人厂商和开发者可以自由使用与定制这一模型,加速研发进程。例如,北京人形机器人创新中心还在推进“千台机器人真实场景数据采集计划”,让上千台机器人在工厂、仓库、酒店等场景中执行任务并采集数据。而这些规模化的多模态数据与Pelican-VL结合,将推动其在制造业自动化、智能物流、零售无人化和家居服务等多领域的快速适配和优化。

Pelican-VL 的开源特点和多场景覆盖能力可以视作机器人生态的“开放型大脑”,作为具身智能的基础软件平台,厂商可以基于它快速开发特定场景下的应用方案,大大降低开发成本和难度。长期来看,Pelican-VL 及其后续版本将促进国内形成完善的通用机器人智能平台,推动更多种类的机器人像安装“通用智能操作系统”一样迅速获取新能力。

Pelican-VL 1.0 的开源标志着具身智能进入了一个以数据驱动、开放协同为核心的新阶段。它不仅在技术上实现了视觉、语言和行动的深度融合,也为产业链带来了全新的合作模式。随着更多研究机构和企业参与生态建设,北京人形致力于通过通用机器人“大脑”市场的发展,让更多机器人在可见的未来中具备“通用智能”、灵活自适应的能力。

VLM模型——Pelican-VL 1.0主页

https://pelican-vl.github.io/

Github

GitHub - Open-X-Humanoid/pelican-vl: Pelican-VL 1.0 is a new family of open-source embodied brain mo

Huggingface

https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B

Modelscope

https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军彻底疯狂,小米拿下4000亿

雷军彻底疯狂,小米拿下4000亿

新浪财经
2026-03-25 23:42:55
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

成吉思热
2026-03-26 10:06:14
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
观众不买单了?上海德云社刚开业发生反常事情,郭德纲于谦傻眼了

观众不买单了?上海德云社刚开业发生反常事情,郭德纲于谦傻眼了

一盅情怀
2026-03-26 14:51:05
北京年近八旬老太每天看直播,4000元退休金全网购,家中

北京年近八旬老太每天看直播,4000元退休金全网购,家中

大象新闻
2026-03-26 11:49:02
出差遭上司猥亵后被调岗降薪,女子起诉获赔,公司管理失职被判担责

出差遭上司猥亵后被调岗降薪,女子起诉获赔,公司管理失职被判担责

红星新闻
2026-03-26 18:23:16
广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

柏铭锐谈
2026-03-25 10:50:46
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

懂球帝
2026-03-26 17:50:02
森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

全栈遛狗员
2026-03-25 17:33:34
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

小舟谈历史
2026-03-25 06:28:02
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
一座副省级城市有多少位正厅级干部?——以青岛为例

一座副省级城市有多少位正厅级干部?——以青岛为例

据说无据
2026-03-24 16:29:53
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
2026-03-26 20:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
数码
家居
亲子
公开课

转头就晕的耳石症,能开车上班吗?

数码要闻

1+4核,英特尔酷睿3 304处理器现身基准测试

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

这就是引导型老师的厉害吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版