超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板|算法|模态|机器人|大模型

超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板

2025-11-14 18:43:40　来源: 机器之心Pro

北京举报

分享至

机器之心发布

机器之心编辑部

最近，国内具身智能的开源 VLM 登顶了行业之巅。2025 年以来，具身智能的行业研发力似乎也迎来了井喷式爆发。

11 月 13 日，北京人形机器人创新中心正式开源了具身智能 VLM 模型 ——Pelican-VL 1.0，根据介绍，该模型覆盖 7B、72B 参数规模，被称为 “最大规模的开源具身多模态大脑模型”。

项目链接：https://pelican-vl.github.io/
Github：https://github.com/Open-X-Humanoid/pelican-vl
Huggingface：https://huggingface.co/collections/X-Humanoid/pelican-vl-10
Modelscope：https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46

官方资料显示，其核心优势在于深度整合海量数据与自适应学习机制：并在由 1000+ A800 GPU 组成的集群上训练，单次检查点训练耗费超过 50,000 A800 GPU - 小时；团队从原始数据中蒸馏出包含数亿 token 的高质量元数据以做训练基石。在基线基础上性能提升 20.3%，超过同级别开源模型 10.6%。根据测试，其平均性能超越 GPT-5 和 Google gemini 等闭源系列模型，成为了目前最强具身性能的开源多模态大模型。

DPPO 造就 “VLM 快速高效提升”

简单来说，Pelican-VL 就像一名刻苦钻研的学生：每次训练循环都会 “看视频 — 自主练习 — 发现错误 — 纠正提升”，这得益于北京人形开创性的运用了 “刻意练习” DPPO（Deliberate Practice Policy Optimization）训练范式。

DPPO 模仿人类元认知的学习方式，通过强化学习（RL）探索弱点、生成失败样本，再进行有针对性的监督微调（SFT），让模型不断自我纠错和迭代进步。正如学生做错题后总结经验一样，Pelican-VL 能在训练中发现 “薄弱知识点” 并补齐，从而持续提高在视觉 - 语言和具身任务上的能力。通过这种机制，模型能够更准确地理解图像内容、语言指令和物理常识，在空间 - 时间推理和动作规划方面实现突破。更具体的如图所示，DPPO 框架包含两个主要阶段：强化学习（RL）和监督微调（SFT）。首先在 RL 阶段通过多样化奖励机制和难度过滤，自动发现模型薄弱点，并对能力进行快速提升。之后进入 SFT 阶段，针对弱点数据进行知识扩展与模式对齐，通过蒸馏和数据构建进一步巩固模型能力。整个过程通过难度感知采样与滚动日志记录，实现 RL 与 SFT 的迭代循环，使得模型既能快速学习新技能，又能保持稳定性与全面性。

同时，凭借 DPPO，Pelican-VL 实现【性能大幅提升 20.3%】，成为同类具身模型性能最强。在以下具身特定能力方面大幅得到了提升：

多模态理解与推理能力：Pelican-VL 同时处理视觉和文本输入，训练时使用了海量图像、视频及跨模态标注数据。它不仅能准确识别物体，还能基于场景进行物理推理、空间关系理解和功能预测。例如，在封闭厨房或商超场景中，它能够分辨果蔬摆放、柜台位置等，并据此规划取物和放置动作。
空间 - 时间认知：模型训练包含数万小时的视频和动态场景问答，使其具备了连续时序的理解能力。在处理视频帧时，Pelican-VL 能捕捉物体移动、操作步骤的时间先后关系，从而对复杂连贯的任务序列做出合理推断，比如判断 “先搬动哪个物品再操作下一个”。
具身交互能力：在诸如物体抓取、导航、协作等机器人任务中，Pelican-VL 不仅能理解任务目标，还能输出细化的动作步骤和评估每步可行性。这意味着它在看到指令后，可以设计出机器人关节的移动轨迹、抓取点和操作策略。其多任务能力覆盖抓取、导航、人机交互等不同应用场景，体现出跨任务的强大泛化性。
自我纠错与迭代学习：借助 DPPO 循环训练，Pelican-VL 具有 “自我纠错” 特质。每轮强化学习后，模型都会自动生成新的难题样本并进行再训练，如同不断练习和复盘。随着训练的进行，它的弱点被逐步修补，能力不断提升。这一过程类似 “刻意练习” 的学习范式，使得 Pelican-VL 在迭代中持续进步并达到与顶级闭源系统持平的表现。

开源 “大脑”，加速产业落地

这些改进并非纸上谈兵。北京人形团队在多项真实的具身任务上给出评测：在接触丰富的触觉操控（例如需要调整握力以抓取软物体）上，Pelican-VL 成功实现了闭环预测与实时调节；在以 “可供性（affordance）” 为核心的物体搬取策略中，模型能零样本生成可行的操作方案；在长程任务规划方面，一个统一大脑也能协调多台机器人完成级联任务。总体上，论文报告称相较基线模型，在空间理解和时间推理等能力上出现显著提升，并在若干公开基准上超过了部分 100B 量级的开源系统，甚至接近一些闭源模型的水平。

同时，团队还在九个维度的具身智能分类体系中，对 Pelican-VL 的各项技能进行了评测，如下雷达图分布显示，各项指标均匀、均衡且在关键维度上表现突出。

粗体数字和带下划线的数字分别表示最佳结果和次佳结果。符号 “†” 标记的结果与官方报告存在差异或异常偏低，这可能是因为官方评估采用了模型专属提示词（模型对提示词较为敏感），而本研究的结果是在统一实验方案下获得的，以确保对比的公平性。星号 “*” 表示结果来源于官方渠道。黄色单元格标记的是本文提出的 Pelican-VL 1.0 模型。

对产业与研究界而言，Pelican-VL 有两层现实意义：一它提供了一套 “视觉理解 → 长期规划→物理操作 ” 串联的可复用训练范式，降低了在机器人中使用 VLM 的门槛；二是团队选择开源基础模型和推理代码，意味着其他实验室或企业可以在这个 “脑” 上做定制化训练，加速落地探索。

北京人形团队也在讨论中指出，尽管取得进步，但高质量具身数据的稀缺性、评测基准的局限以及如何安全、可靠地在人类环境中部署仍是下一步需要直面的挑战。

读者如果想把这则研究的影响具象化：想象家里的助手机器人不仅能识别碗盘在哪儿，还能判断 “这个杯子能用来拿汤吗？”、“这个苹果该怎样轻拿轻放才不挤坏？” 并在实际失败后自己学会改进 ——Pelican-VL 正是在朝这个方向迈出一大步。

国际模型对比：技术路线与应用场景

Pelican-VL 代表了国内具身智能的一种端到端解法，与国外一些知名模型在策略和场景上各有侧重。

对于国外 AI 大厂：

英伟达团队在 25 年 3 月提出来 Cosmos-Reason1 是 NVIDIA 发布的专为物理智能（Physical AI）打造的多模态大模型，包含 8B 和 56B 两种尺寸。模型在空间、时间和基础物理三大常识范畴下，融合视觉与文本信息，具备强大的物理常识推理和具身推理能力。采用 ViT-300M 视觉编码器、Mamba-MLP-Transformer 主干，以及多阶段训练流程（包括视觉预训练、通用与物理智能 SFT、强化学习），配合 1 亿级多模态样本和千万级具身与物理常识数据。在物理推理、空间认知等多项基准测试上远超现有主流模型，并开源了权重与代码。

Google 的 embodied reasoning 以 Gemini Robotics-ER 模型为代表，核心目标是让 AI 能够在真实物理环境中理解、规划并做出决策，主要应用于机器人领域。Gemini Robotics-ER 具备多模态推理能力，能够处理物体检测、空间理解、抓取预测和三维轨迹规划等任务，并将视觉感知转化为机器人可执行的高阶指令。模型支持多步规划和环境反馈动态调整，利用如 ERQA 数据集等基准评估其现实任务能力。此外，Google 探索 “内心独白” 机制，让机器人在动态环境下能自我思考、实时调整，实现高鲁棒性的具身智能。相关技术已集成于 Google AI Studio、Gemini API 和 Vertex AI，为自动化生产、导航、操作等机器人实际应用提供支持。

而 GPT-5 是通用视觉 - 语言大模型同样具备强大的图像理解和跨模态推理能力，但它们原本并非专为物理执行而设计。GPT-5 可以回答视觉问题、生成图像描述，但缺少与机器人硬件对接的控制层。

相比国外闭源模型，Pelican-VL 在国内开源模型基础上进行预训练，利用少量的数据和训练资源，即达到了相当的性能，甚至更好的性能，整体数据利用率达到了其他模型的 10 倍～50 倍。另外，因为 Pelican-VL 是开源的模型，可以赋能国内外具身行业。此外，在国内 Pelican-VL 也是性能最好的具身智能模型，相比于国内同类模型，平均提升了 10%+ 的性能。

结语

从搭建 “具身天工” 和 “慧思开物” 这一硬一软的通用平台开始，再到如今，以算法推动行业研发、以数据利用率加速模型迭代、以开源策略为产业落地夯实基础，北京人形似乎都在以一个更宏观的视角在探索具身智能的这条道路。这种 “平台 + 生态” 的布局，或许也将促进打破技术闭环与数据孤岛，更让具身智能从实验室的单点突破，走向产业链协同的规模化发展。

当越来越多企业借助开源工具降低研发门槛，当真实场景数据持续反哺模型进化，具身智能或许能真正加速渗透工业、家庭、物流等多元场景，最终让机器人真正具备 “感知 - 思考 - 行动” 的通用能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.