网易首页 > 网易号 > 正文 申请入驻

超大参数量具身VLM开源:首创DPPO训练范式,模型性价比天花板

0
分享至



机器之心发布

机器之心编辑部

最近,国内具身智能的开源 VLM 登顶了行业之巅。2025 年以来,具身智能的行业研发力似乎也迎来了井喷式爆发。

11 月 13 日,北京人形机器人创新中心正式开源了具身智能 VLM 模型 ——Pelican-VL 1.0,根据介绍,该模型覆盖 7B、72B 参数规模,被称为 “最大规模的开源具身多模态大脑模型”。



  • 项目链接:https://pelican-vl.github.io/
  • Github:https://github.com/Open-X-Humanoid/pelican-vl
  • Huggingface:https://huggingface.co/collections/X-Humanoid/pelican-vl-10
  • Modelscope:https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46

官方资料显示,其核心优势在于深度整合海量数据与自适应学习机制:并在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU - 小时;团队从原始数据中蒸馏出包含数亿 token 的高质量元数据以做训练基石。在基线基础上性能提升 20.3%,超过同级别开源模型 10.6%。根据测试,其平均性能超越 GPT-5 和 Google gemini 等闭源系列模型,成为了目前最强具身性能的开源多模态大模型 。



DPPO 造就 “VLM 快速高效提升”

简单来说,Pelican-VL 就像一名刻苦钻研的学生:每次训练循环都会 “看视频 — 自主练习 — 发现错误 — 纠正提升”,这得益于北京人形开创性的运用了 “刻意练习” DPPO(Deliberate Practice Policy Optimization)训练范式。



DPPO 模仿人类元认知的学习方式,通过强化学习(RL)探索弱点、生成失败样本,再进行有针对性的监督微调(SFT),让模型不断自我纠错和迭代进步。正如学生做错题后总结经验一样,Pelican-VL 能在训练中发现 “薄弱知识点” 并补齐,从而持续提高在视觉 - 语言和具身任务上的能力。通过这种机制,模型能够更准确地理解图像内容、语言指令和物理常识,在空间 - 时间推理和动作规划方面实现突破。更具体的如图所示,DPPO 框架包含两个主要阶段:强化学习(RL)和监督微调(SFT)。首先在 RL 阶段通过多样化奖励机制和难度过滤,自动发现模型薄弱点,并对能力进行快速提升。之后进入 SFT 阶段,针对弱点数据进行知识扩展与模式对齐,通过蒸馏和数据构建进一步巩固模型能力。整个过程通过难度感知采样与滚动日志记录,实现 RL 与 SFT 的迭代循环,使得模型既能快速学习新技能,又能保持稳定性与全面性。

同时,凭借 DPPO,Pelican-VL 实现【性能大幅提升 20.3%】,成为同类具身模型性能最强。在以下具身特定能力方面大幅得到了提升:

  • 多模态理解与推理能力:Pelican-VL 同时处理视觉和文本输入,训练时使用了海量图像、视频及跨模态标注数据。它不仅能准确识别物体,还能基于场景进行物理推理、空间关系理解和功能预测。例如,在封闭厨房或商超场景中,它能够分辨果蔬摆放、柜台位置等,并据此规划取物和放置动作。
  • 空间 - 时间认知:模型训练包含数万小时的视频和动态场景问答,使其具备了连续时序的理解能力。在处理视频帧时,Pelican-VL 能捕捉物体移动、操作步骤的时间先后关系,从而对复杂连贯的任务序列做出合理推断,比如判断 “先搬动哪个物品再操作下一个”。
  • 具身交互能力:在诸如物体抓取、导航、协作等机器人任务中,Pelican-VL 不仅能理解任务目标,还能输出细化的动作步骤和评估每步可行性。这意味着它在看到指令后,可以设计出机器人关节的移动轨迹、抓取点和操作策略。其多任务能力覆盖抓取、导航、人机交互等不同应用场景,体现出跨任务的强大泛化性。
  • 自我纠错与迭代学习:借助 DPPO 循环训练,Pelican-VL 具有 “自我纠错” 特质。每轮强化学习后,模型都会自动生成新的难题样本并进行再训练,如同不断练习和复盘。随着训练的进行,它的弱点被逐步修补,能力不断提升。这一过程类似 “刻意练习” 的学习范式,使得 Pelican-VL 在迭代中持续进步并达到与顶级闭源系统持平的表现。

开源 “大脑”,加速产业落地

这些改进并非纸上谈兵。北京人形团队在多项真实的具身任务上给出评测:在接触丰富的触觉操控(例如需要调整握力以抓取软物体)上,Pelican-VL 成功实现了闭环预测与实时调节;在以 “可供性(affordance)” 为核心的物体搬取策略中,模型能零样本生成可行的操作方案;在长程任务规划方面,一个统一大脑也能协调多台机器人完成级联任务。总体上,论文报告称相较基线模型,在空间理解和时间推理等能力上出现显著提升,并在若干公开基准上超过了部分 100B 量级的开源系统,甚至接近一些闭源模型的水平。





同时,团队还在九个维度的具身智能分类体系中,对 Pelican-VL 的各项技能进行了评测,如下雷达图分布显示,各项指标均匀、均衡且在关键维度上表现突出。









粗体数字和带下划线的数字分别表示最佳结果和次佳结果。符号 “†” 标记的结果与官方报告存在差异或异常偏低,这可能是因为官方评估采用了模型专属提示词(模型对提示词较为敏感),而本研究的结果是在统一实验方案下获得的,以确保对比的公平性。星号 “*” 表示结果来源于官方渠道。黄色单元格标记的是本文提出的 Pelican-VL 1.0 模型。

对产业与研究界而言,Pelican-VL 有两层现实意义:一它提供了一套 “视觉理解 → 长期规划→物理操作 ” 串联的可复用训练范式,降低了在机器人中使用 VLM 的门槛;二是团队选择开源基础模型和推理代码,意味着其他实验室或企业可以在这个 “脑” 上做定制化训练,加速落地探索。

北京人形团队也在讨论中指出,尽管取得进步,但高质量具身数据的稀缺性、评测基准的局限以及如何安全、可靠地在人类环境中部署仍是下一步需要直面的挑战。

读者如果想把这则研究的影响具象化:想象家里的助手机器人不仅能识别碗盘在哪儿,还能判断 “这个杯子能用来拿汤吗?”、“这个苹果该怎样轻拿轻放才不挤坏?” 并在实际失败后自己学会改进 ——Pelican-VL 正是在朝这个方向迈出一大步。

国际模型对比:技术路线与应用场景

Pelican-VL 代表了国内具身智能的一种端到端解法,与国外一些知名模型在策略和场景上各有侧重。

对于国外 AI 大厂:

英伟达团队在 25 年 3 月提出来 Cosmos-Reason1 是 NVIDIA 发布的专为物理智能(Physical AI)打造的多模态大模型,包含 8B 和 56B 两种尺寸。模型在空间、时间和基础物理三大常识范畴下,融合视觉与文本信息,具备强大的物理常识推理和具身推理能力。采用 ViT-300M 视觉编码器、Mamba-MLP-Transformer 主干,以及多阶段训练流程(包括视觉预训练、通用与物理智能 SFT、强化学习),配合 1 亿级多模态样本和千万级具身与物理常识数据。在物理推理、空间认知等多项基准测试上远超现有主流模型,并开源了权重与代码。

Google 的 embodied reasoning 以 Gemini Robotics-ER 模型为代表,核心目标是让 AI 能够在真实物理环境中理解、规划并做出决策,主要应用于机器人领域。Gemini Robotics-ER 具备多模态推理能力,能够处理物体检测、空间理解、抓取预测和三维轨迹规划等任务,并将视觉感知转化为机器人可执行的高阶指令。模型支持多步规划和环境反馈动态调整,利用如 ERQA 数据集等基准评估其现实任务能力。此外,Google 探索 “内心独白” 机制,让机器人在动态环境下能自我思考、实时调整,实现高鲁棒性的具身智能。相关技术已集成于 Google AI Studio、Gemini API 和 Vertex AI,为自动化生产、导航、操作等机器人实际应用提供支持。

而 GPT-5 是通用视觉 - 语言大模型同样具备强大的图像理解和跨模态推理能力,但它们原本并非专为物理执行而设计。GPT-5 可以回答视觉问题、生成图像描述,但缺少与机器人硬件对接的控制层。

相比国外闭源模型,Pelican-VL 在国内开源模型基础上进行预训练,利用少量的数据和训练资源,即达到了相当的性能,甚至更好的性能,整体数据利用率达到了其他模型的 10 倍~50 倍。另外,因为 Pelican-VL 是开源的模型,可以赋能国内外具身行业。此外,在国内 Pelican-VL 也是性能最好的具身智能模型,相比于国内同类模型,平均提升了 10%+ 的性能。

结语

从搭建 “具身天工” 和 “慧思开物” 这一硬一软的通用平台开始,再到如今,以算法推动行业研发、以数据利用率加速模型迭代、以开源策略为产业落地夯实基础,北京人形似乎都在以一个更宏观的视角在探索具身智能的这条道路。这种 “平台 + 生态” 的布局,或许也将促进打破技术闭环与数据孤岛,更让具身智能从实验室的单点突破,走向产业链协同的规模化发展。

当越来越多企业借助开源工具降低研发门槛,当真实场景数据持续反哺模型进化,具身智能或许能真正加速渗透工业、家庭、物流等多元场景,最终让机器人真正具备 “感知 - 思考 - 行动” 的通用能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

阿纂看事
2026-03-26 20:49:43
2-0!托纳利立大功,意大利完胜,杀入决赛,再赢一场=晋级世界杯

2-0!托纳利立大功,意大利完胜,杀入决赛,再赢一场=晋级世界杯

足球狗说
2026-03-27 05:38:22
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

柴狗夫斯基
2026-03-26 21:06:15
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

侧身凌空斩
2026-03-26 13:04:09
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

新民周刊
2026-03-26 19:12:17
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
世界杯需要意大利!四冠王意大利附加赛生死局,能否杀出重围?

世界杯需要意大利!四冠王意大利附加赛生死局,能否杀出重围?

宝哥爱足球
2026-03-26 00:07:41
追悼会从简,女儿独站告别厅,她一句话让人心碎

追悼会从简,女儿独站告别厅,她一句话让人心碎

周哥一影视
2026-03-27 03:37:44
伊朗总统:伊朗致力于结束战争 从未寻求拥有核武器

伊朗总统:伊朗致力于结束战争 从未寻求拥有核武器

财联社
2026-03-27 02:02:29
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
2026-03-27 06:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
艺术
数码
房产
本地

400万人爱过的女孩,被黄谣网暴180天后

艺术要闻

最美花卉图谱!记住后保你啥花都认识!

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版