网易首页 > 网易号 > 正文 申请入驻

清华、星动纪元开源首个 AIGC 机器人大模型

0
分享至

IT之家 5 月 7 日消息,星动纪元今日在官方公众号上宣布,开源首个 AIGC 机器人大模型 VPP(Video Prediction Policy)

据了解,生成式机器人大模型 VPP 由清华大学叉院的 ISRLab 和星动纪元合作开发,将视频扩散模型的泛化能力转移到了通用机器人操作策略中,解决了 diffusion 推理速度的问题,让机器人实时进行未来预测和动作执行,大大提升机器人策略泛化性,并且现已全部开源,相关成果入选 ICML 2025 Spotlight。

星动纪元介绍称,VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。

目前 AI 大模型领域有两种主流方法,基于自回归的理解模型和基于扩散的生成模型,各自代表作分别为自回归的 GPT 和生成式的 Sora:

  • GPT 的思路演化到具身智能领域,就是以 PI( Physical Intelligence )为代表的 VLA 技术,是从视觉语言理解模型(VLM)微调而来,擅长抽象推理和语义理解。
  • 生成式的技术与机器人的碰撞,就诞生了 VPP 这样的生成式机器人大模型。

然而,人工智能领域存在着著名的莫拉维克悖论(Moravec's paradox):高级推理功能反而容易(例如围棋、数学题),下层的感知和执行反而困难(例如各种家务)。VLM 更擅长高层级的推理,而 AIGC 生成式模型更擅长细节处理。VPP 基于 AIGC 视频扩散模型而来,在底层的感知和控制有独特的优势。

如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

1、提前预知未来:VPP 让机器人行动前做到“心里有数”

以往机器人策略(例如:VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人“看着答案”行动,大大增强泛化能力。

VPP 视频预测结果与机器人实际物理执行结果几乎一致。能被视频生成的,就能被机器人执行。

2、高频预测和执行:VPP 让机器人执行速度“更快一步”

AIGC 视频扩散模型虽能生成逼真的视频,但往往花费大量推理时间。星动纪元研究团队发现,不需要精确地预测未来的每个像素,通过有效提取视频模型中间层的表征,单步去噪的预测就可以蕴含大量未来信息。这让模型预测时间小于 150ms,模型的预测频率约 6-10hz,通过 action chunk size = 10,模型的控制频率能超过 50Hz。

如图所示,单步视频扩散模型预测已经蕴含大量未来信息,足够实现高频预测(规划)和执行。

3、跨本体学习:VPP 让机器人先验知识流通“畅通无阻”

如何利用不同本体的机器人数据是一个巨大的难题。VLA 模型只能学习不同维度的低维度 action 信息,而 VPP 可以直接学习各种形态机器人的视频数据,不存在维度不同的问题。如果将人类本体也当作一种机器本体,VPP 也可以直接学习人类操作数据,降低数据获取成本。同时视频数据也包含比低维度动作更加丰富的信息,提高模型泛化能力。

VPP 能学习跨本体的丰富视频数据,相比之下,VLA 只能学习维度不一致的低维动作信号。

4、基准测试领先:VPP 让机器人性能“一骑绝尘”

在 Calvin ABC-D 基准测试中,实现了 4.33 的任务完成平均长度,已经接近任务的满分 5.0。相较于先前技术,VPP 实现了 41.5% 的提升。

左图为 Calvin ABC-D 任务的平均长度对比,右图为 Real-World Dexterous Hand 任务的成功率对比。可以看出,VPP 方法在这两项指标中均取得了最佳表现,在仿真环境任务完成平均长度达到 4.33,真机测试成功率为 67%,显著优于其他方法。

5、真实世界灵巧操作:VPP 让机器人灵巧操作“举一反三”

在真实世界的测试中,VPP 模型展现出了良好的多任务学习能力和泛化能力。在星动纪元单臂 + 仿人五指灵巧手灵巧手 XHAND 平台,VPP 能使用一个网络完成 100+ 种复杂灵巧操作任务,例如抓取、放置、堆叠、倒水、工具使用等,在双臂人形机器人平台能完成 50+ 种复杂灵巧操作任务。

6、可解释性与调试优化:VPP 让机器人“透明可控”

VPP 的预测视觉表示在一定程度上是可解释的,开发者在不通过 real-world 测试情况下,通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。

而 VLA 模型是完全端到端的模型,开发者在调试优化中需要大量真实世界的测试来找到模型漏洞,需要花费大量的时间。

IT之家附开源链接如下:

  • 论文地址:https://arxiv.org/pdf/2412.14803
  • 项目地址:https://video-prediction-policy.github.io
  • 开源代码:https://github.com/roboterax/video-prediction-policy

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

3DM游戏
2026-05-26 14:08:05
底越掀越深!体育生当医生、院长儿子吃空饷,不敢再挖了

底越掀越深!体育生当医生、院长儿子吃空饷,不敢再挖了

奇思妙想草叶君
2026-05-03 22:56:14
93年辽宁整箱77式手枪被盗,北京严令节前破案,凶手竟是守库武警

93年辽宁整箱77式手枪被盗,北京严令节前破案,凶手竟是守库武警

鉴史录
2026-05-24 14:07:32
杭州外卖事件刷屏全网:5亿次传播背后的职业尊严与初心叩问

杭州外卖事件刷屏全网:5亿次传播背后的职业尊严与初心叩问

哄动一时啊
2026-05-26 16:51:21
白宫那把小椅子仍历历在目!中国接待规格,足以替武契奇一雪前耻

白宫那把小椅子仍历历在目!中国接待规格,足以替武契奇一雪前耻

漫步独行侠
2026-05-26 08:22:20
新赛季将扣除32万英镑积分!中国一哥丁俊晖恐很难保住前16的位置

新赛季将扣除32万英镑积分!中国一哥丁俊晖恐很难保住前16的位置

世界体坛观察家
2026-05-26 17:22:44
尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

仰卧撑FTUer
2026-05-26 14:34:08
北京本地人中穷人很多吗?网友:我就挺穷,北京户口并不能发钱

北京本地人中穷人很多吗?网友:我就挺穷,北京户口并不能发钱

带你感受人间冷暖
2026-05-26 22:27:50
美国下狠手!赶人“新规”,百万华人一旦回国,十年都没法再入境

美国下狠手!赶人“新规”,百万华人一旦回国,十年都没法再入境

好贤观史记
2026-05-26 16:53:23
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
迪马济奥丨预测伊劳拉上任米兰阵型:踢4-2-3-1

迪马济奥丨预测伊劳拉上任米兰阵型:踢4-2-3-1

米兰圈
2026-05-27 07:57:01
新华社连发两问!

新华社连发两问!

极目新闻
2026-05-26 15:46:13
外媒称伊朗愿意“将浓缩铀移至中国”,中方回应

外媒称伊朗愿意“将浓缩铀移至中国”,中方回应

第一财经资讯
2026-05-26 15:38:44
伊朗总统下令恢复国际互联网接入

伊朗总统下令恢复国际互联网接入

新京报
2026-05-26 07:25:07
不扒不知道!沈月身份不简单,还给内娱上了一堂“危机公关”课

不扒不知道!沈月身份不简单,还给内娱上了一堂“危机公关”课

科学发掘
2026-05-26 14:43:40
俄杜马主席威胁马斯克:关掉乌军星链,否则俄将动用重型武器

俄杜马主席威胁马斯克:关掉乌军星链,否则俄将动用重型武器

桂系007
2026-05-26 23:56:13
“扶弟魔”升级版!妻子因丈夫拒每月拿2000元帮弟还车贷,离婚了

“扶弟魔”升级版!妻子因丈夫拒每月拿2000元帮弟还车贷,离婚了

火山詩话
2026-05-26 07:27:35
国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

路医生健康科普
2026-05-26 17:14:33
“大傻”成奎安去世17年,孙子身亡儿子入狱,家破人亡令人唏嘘!

“大傻”成奎安去世17年,孙子身亡儿子入狱,家破人亡令人唏嘘!

水泥土的搞笑
2026-05-27 01:35:39
“骑一万块的智能电驴通勤”,谁会用它充体面

“骑一万块的智能电驴通勤”,谁会用它充体面

新周刊
2026-05-26 09:15:51
2026-05-27 09:20:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
346335文章数 607222关注度
往期回顾 全部

科技要闻

狂飙19%!美光科技市值破万亿美元

头条要闻

牛弹琴:明知会被拒 特朗普向中东国家提了个非分要求

头条要闻

牛弹琴:明知会被拒 特朗普向中东国家提了个非分要求

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

艺术
手机
家居
时尚
教育

艺术要闻

蒋中正篆书有功夫却欠传统韵味,初学者为何觉得古人书法丑

手机要闻

苹果iOS 27版Siri曝料:视觉风格类似WWDC26宣传图

家居要闻

生与命相依 旧公寓改造

这款来自千年前的“扎染盲盒”你拆过吗?

教育要闻

重庆工程职业技术学院:值得填报吗?热门专业就业现状及报考分析#搜索千校视频计划

无障碍浏览 进入关怀版