网易首页 > 网易号 > 正文 申请入驻

超大参数量具身VLM开源:首创DPPO训练范式,模型性价比天花板

0
分享至



机器之心发布

机器之心编辑部

最近,国内具身智能的开源 VLM 登顶了行业之巅。2025 年以来,具身智能的行业研发力似乎也迎来了井喷式爆发。

11 月 13 日,北京人形机器人创新中心正式开源了具身智能 VLM 模型 ——Pelican-VL 1.0,根据介绍,该模型覆盖 7B、72B 参数规模,被称为 “最大规模的开源具身多模态大脑模型”。



  • 项目链接:https://pelican-vl.github.io/
  • Github:https://github.com/Open-X-Humanoid/pelican-vl
  • Huggingface:https://huggingface.co/collections/X-Humanoid/pelican-vl-10
  • Modelscope:https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46

官方资料显示,其核心优势在于深度整合海量数据与自适应学习机制:并在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU - 小时;团队从原始数据中蒸馏出包含数亿 token 的高质量元数据以做训练基石。在基线基础上性能提升 20.3%,超过同级别开源模型 10.6%。根据测试,其平均性能超越 GPT-5 和 Google gemini 等闭源系列模型,成为了目前最强具身性能的开源多模态大模型 。



DPPO 造就 “VLM 快速高效提升”

简单来说,Pelican-VL 就像一名刻苦钻研的学生:每次训练循环都会 “看视频 — 自主练习 — 发现错误 — 纠正提升”,这得益于北京人形开创性的运用了 “刻意练习” DPPO(Deliberate Practice Policy Optimization)训练范式。



DPPO 模仿人类元认知的学习方式,通过强化学习(RL)探索弱点、生成失败样本,再进行有针对性的监督微调(SFT),让模型不断自我纠错和迭代进步。正如学生做错题后总结经验一样,Pelican-VL 能在训练中发现 “薄弱知识点” 并补齐,从而持续提高在视觉 - 语言和具身任务上的能力。通过这种机制,模型能够更准确地理解图像内容、语言指令和物理常识,在空间 - 时间推理和动作规划方面实现突破。更具体的如图所示,DPPO 框架包含两个主要阶段:强化学习(RL)和监督微调(SFT)。首先在 RL 阶段通过多样化奖励机制和难度过滤,自动发现模型薄弱点,并对能力进行快速提升。之后进入 SFT 阶段,针对弱点数据进行知识扩展与模式对齐,通过蒸馏和数据构建进一步巩固模型能力。整个过程通过难度感知采样与滚动日志记录,实现 RL 与 SFT 的迭代循环,使得模型既能快速学习新技能,又能保持稳定性与全面性。

同时,凭借 DPPO,Pelican-VL 实现【性能大幅提升 20.3%】,成为同类具身模型性能最强。在以下具身特定能力方面大幅得到了提升:

  • 多模态理解与推理能力:Pelican-VL 同时处理视觉和文本输入,训练时使用了海量图像、视频及跨模态标注数据。它不仅能准确识别物体,还能基于场景进行物理推理、空间关系理解和功能预测。例如,在封闭厨房或商超场景中,它能够分辨果蔬摆放、柜台位置等,并据此规划取物和放置动作。
  • 空间 - 时间认知:模型训练包含数万小时的视频和动态场景问答,使其具备了连续时序的理解能力。在处理视频帧时,Pelican-VL 能捕捉物体移动、操作步骤的时间先后关系,从而对复杂连贯的任务序列做出合理推断,比如判断 “先搬动哪个物品再操作下一个”。
  • 具身交互能力:在诸如物体抓取、导航、协作等机器人任务中,Pelican-VL 不仅能理解任务目标,还能输出细化的动作步骤和评估每步可行性。这意味着它在看到指令后,可以设计出机器人关节的移动轨迹、抓取点和操作策略。其多任务能力覆盖抓取、导航、人机交互等不同应用场景,体现出跨任务的强大泛化性。
  • 自我纠错与迭代学习:借助 DPPO 循环训练,Pelican-VL 具有 “自我纠错” 特质。每轮强化学习后,模型都会自动生成新的难题样本并进行再训练,如同不断练习和复盘。随着训练的进行,它的弱点被逐步修补,能力不断提升。这一过程类似 “刻意练习” 的学习范式,使得 Pelican-VL 在迭代中持续进步并达到与顶级闭源系统持平的表现。

开源 “大脑”,加速产业落地

这些改进并非纸上谈兵。北京人形团队在多项真实的具身任务上给出评测:在接触丰富的触觉操控(例如需要调整握力以抓取软物体)上,Pelican-VL 成功实现了闭环预测与实时调节;在以 “可供性(affordance)” 为核心的物体搬取策略中,模型能零样本生成可行的操作方案;在长程任务规划方面,一个统一大脑也能协调多台机器人完成级联任务。总体上,论文报告称相较基线模型,在空间理解和时间推理等能力上出现显著提升,并在若干公开基准上超过了部分 100B 量级的开源系统,甚至接近一些闭源模型的水平。





同时,团队还在九个维度的具身智能分类体系中,对 Pelican-VL 的各项技能进行了评测,如下雷达图分布显示,各项指标均匀、均衡且在关键维度上表现突出。









粗体数字和带下划线的数字分别表示最佳结果和次佳结果。符号 “†” 标记的结果与官方报告存在差异或异常偏低,这可能是因为官方评估采用了模型专属提示词(模型对提示词较为敏感),而本研究的结果是在统一实验方案下获得的,以确保对比的公平性。星号 “*” 表示结果来源于官方渠道。黄色单元格标记的是本文提出的 Pelican-VL 1.0 模型。

对产业与研究界而言,Pelican-VL 有两层现实意义:一它提供了一套 “视觉理解 → 长期规划→物理操作 ” 串联的可复用训练范式,降低了在机器人中使用 VLM 的门槛;二是团队选择开源基础模型和推理代码,意味着其他实验室或企业可以在这个 “脑” 上做定制化训练,加速落地探索。

北京人形团队也在讨论中指出,尽管取得进步,但高质量具身数据的稀缺性、评测基准的局限以及如何安全、可靠地在人类环境中部署仍是下一步需要直面的挑战。

读者如果想把这则研究的影响具象化:想象家里的助手机器人不仅能识别碗盘在哪儿,还能判断 “这个杯子能用来拿汤吗?”、“这个苹果该怎样轻拿轻放才不挤坏?” 并在实际失败后自己学会改进 ——Pelican-VL 正是在朝这个方向迈出一大步。

国际模型对比:技术路线与应用场景

Pelican-VL 代表了国内具身智能的一种端到端解法,与国外一些知名模型在策略和场景上各有侧重。

对于国外 AI 大厂:

英伟达团队在 25 年 3 月提出来 Cosmos-Reason1 是 NVIDIA 发布的专为物理智能(Physical AI)打造的多模态大模型,包含 8B 和 56B 两种尺寸。模型在空间、时间和基础物理三大常识范畴下,融合视觉与文本信息,具备强大的物理常识推理和具身推理能力。采用 ViT-300M 视觉编码器、Mamba-MLP-Transformer 主干,以及多阶段训练流程(包括视觉预训练、通用与物理智能 SFT、强化学习),配合 1 亿级多模态样本和千万级具身与物理常识数据。在物理推理、空间认知等多项基准测试上远超现有主流模型,并开源了权重与代码。

Google 的 embodied reasoning 以 Gemini Robotics-ER 模型为代表,核心目标是让 AI 能够在真实物理环境中理解、规划并做出决策,主要应用于机器人领域。Gemini Robotics-ER 具备多模态推理能力,能够处理物体检测、空间理解、抓取预测和三维轨迹规划等任务,并将视觉感知转化为机器人可执行的高阶指令。模型支持多步规划和环境反馈动态调整,利用如 ERQA 数据集等基准评估其现实任务能力。此外,Google 探索 “内心独白” 机制,让机器人在动态环境下能自我思考、实时调整,实现高鲁棒性的具身智能。相关技术已集成于 Google AI Studio、Gemini API 和 Vertex AI,为自动化生产、导航、操作等机器人实际应用提供支持。

而 GPT-5 是通用视觉 - 语言大模型同样具备强大的图像理解和跨模态推理能力,但它们原本并非专为物理执行而设计。GPT-5 可以回答视觉问题、生成图像描述,但缺少与机器人硬件对接的控制层。

相比国外闭源模型,Pelican-VL 在国内开源模型基础上进行预训练,利用少量的数据和训练资源,即达到了相当的性能,甚至更好的性能,整体数据利用率达到了其他模型的 10 倍~50 倍。另外,因为 Pelican-VL 是开源的模型,可以赋能国内外具身行业。此外,在国内 Pelican-VL 也是性能最好的具身智能模型,相比于国内同类模型,平均提升了 10%+ 的性能。

结语

从搭建 “具身天工” 和 “慧思开物” 这一硬一软的通用平台开始,再到如今,以算法推动行业研发、以数据利用率加速模型迭代、以开源策略为产业落地夯实基础,北京人形似乎都在以一个更宏观的视角在探索具身智能的这条道路。这种 “平台 + 生态” 的布局,或许也将促进打破技术闭环与数据孤岛,更让具身智能从实验室的单点突破,走向产业链协同的规模化发展。

当越来越多企业借助开源工具降低研发门槛,当真实场景数据持续反哺模型进化,具身智能或许能真正加速渗透工业、家庭、物流等多元场景,最终让机器人真正具备 “感知 - 思考 - 行动” 的通用能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:刚刚,国务院发布,释放一信号,周一将迎来新的变盘

A股:刚刚,国务院发布,释放一信号,周一将迎来新的变盘

云鹏叙事
2026-01-04 22:00:39
傻狍子跟兄弟共用炮友

傻狍子跟兄弟共用炮友

毒舌扒姨太
2026-01-04 22:28:02
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
赖清德想向大陆摊牌,台陆委会罕见不一致,解放军有大动作

赖清德想向大陆摊牌,台陆委会罕见不一致,解放军有大动作

余生妩媚小妖精
2026-01-05 04:42:15
民众在美国纽约举行抗议 反对美对委内瑞拉军事行动

民众在美国纽约举行抗议 反对美对委内瑞拉军事行动

国际在线
2026-01-05 03:59:24
再见伦纳德,雄鹿6换1交易方案,字母哥迎争冠最强辅助,快船不亏

再见伦纳德,雄鹿6换1交易方案,字母哥迎争冠最强辅助,快船不亏

毒舌NBA
2026-01-04 20:22:38
你知道的有钱人的生活是啥样?网友:有些人一出生就在罗马

你知道的有钱人的生活是啥样?网友:有些人一出生就在罗马

带你感受人间冷暖
2026-01-03 00:05:14
上海去年成交二手房超25万套,有人年末连夜看房下单,机构:大量刚需集中入场

上海去年成交二手房超25万套,有人年末连夜看房下单,机构:大量刚需集中入场

每日经济新闻
2026-01-04 22:32:06
中国高校40强出炉!西安交大位列第10,南开仅排24,苏州大学上榜

中国高校40强出炉!西安交大位列第10,南开仅排24,苏州大学上榜

教育导向分享
2026-01-04 20:49:40
NBA战报:活塞114-110骑士,米切尔空砍30分

NBA战报:活塞114-110骑士,米切尔空砍30分

懂球帝
2026-01-05 05:36:08
资治通鉴:告诉你一个顶级智慧,你对别人恩情越大越不要主动提及

资治通鉴:告诉你一个顶级智慧,你对别人恩情越大越不要主动提及

李舟
2026-01-03 18:13:59
撕破脸!阿莫林炮轰曼联高层:我是主帅不是教练!

撕破脸!阿莫林炮轰曼联高层:我是主帅不是教练!

奶盖熊本熊
2026-01-05 01:26:08
特朗普:昨晚有很多古巴人失去了生命,他们当时在保护马杜罗,这不是一个明智的举动

特朗普:昨晚有很多古巴人失去了生命,他们当时在保护马杜罗,这不是一个明智的举动

新京报政事儿
2026-01-04 12:22:43
西安地铁冰火两重天:2,4号线挤爆,10号线南延真能救城东?

西安地铁冰火两重天:2,4号线挤爆,10号线南延真能救城东?

旭芯怡
2026-01-04 21:57:01
杜金:中国放任委内瑞拉和伊朗沦陷,最终倒霉的可能是自己!

杜金:中国放任委内瑞拉和伊朗沦陷,最终倒霉的可能是自己!

秋枫未语
2026-01-04 14:05:43
河北农村取暖现状扎心了!补贴取消后燃气费翻倍,老人裹棉袄过冬

河北农村取暖现状扎心了!补贴取消后燃气费翻倍,老人裹棉袄过冬

ICT解读者
2026-01-03 13:21:29
世上没有后悔药!这次公开向儿子道歉的成龙,给为人父母提了醒

世上没有后悔药!这次公开向儿子道歉的成龙,给为人父母提了醒

兴史兴谈
2026-01-04 01:54:20
重磅!三方大交易!勇士拒绝浓眉!

重磅!三方大交易!勇士拒绝浓眉!

王飬吃吃喝喝
2026-01-04 13:40:18
小区楼道有上门按摩的广告,我偷偷扫码下了单,看到来人后却傻眼

小区楼道有上门按摩的广告,我偷偷扫码下了单,看到来人后却傻眼

五元讲堂
2025-08-08 11:06:51
司晓迪再曝新料!洗脚、视频通话还有唱K,网友曝会议细节最搞笑

司晓迪再曝新料!洗脚、视频通话还有唱K,网友曝会议细节最搞笑

除夕烟火灿烂
2026-01-04 09:51:08
2026-01-05 06:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12052文章数 142529关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

健康
教育
本地
游戏
公开课

这些新疗法,让化疗不再那么痛苦

教育要闻

2030年中国会普及高中吗?弱化职普分流留学怎么办?

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

曝PS掌机要来了?博主传外媒大佬表示26年有消息

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版