网易首页 > 网易号 > 正文 申请入驻

机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型

0
分享至

机器之心发布

机器之心编辑部

从 2023 年的 Sora 到如今的可灵、Vidu、通义万相,AIGC 生成式技术的魔法席卷全球,打开了 AI 应用落地的大门。

无独有偶,AIGC 生成式技术同样在具身智能机器人大模型上带来了惊人的表现。

“给我盛一碗热腾腾的鸡汤”,以前这句话能带给你一个温暖感人、栩栩如生的视频。现在,如果你旁边有一个机器人,这句话就能让他真的给你盛一碗汤!

这背后的技术来自于清华大学叉院的 ISRLab 和星动纪元 ——ICML Spotlight 高分作品 AIGC 生成式机器人大模型 VPP(Video Prediction Policy)!利用预训练视频生成大模型,让 AIGC 的魔力从数字世界走进具身智能的物理世界,就好比“机器人界的 Sora

VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,极大减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。

据悉,今年的 ICML2025,Spotlight 论文中稿难度极高,在超过 12000 篇投稿中,仅有不到 2.6% 的论文能获此殊荣,VPP 就是其中之一。

VPP 将视频扩散模型的泛化能力转移到了通用机器人操作策略中,巧妙解决了 diffusion 推理速度的问题,开创性地让机器人实时进行未来预测和动作执行,大大提升机器人策略泛化性,并且现已全部开源!

  • 论文标题:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations, ICML 2025 Spotlight
  • 论文地址:https://arxiv.org/pdf/2412.14803
  • 项目地址:https://video-prediction-policy.github.io
  • 开源代码:https://github.com/roboterax/video-prediction-policy

VPP 是机器人界的 “Sora”

目前 AI 大模型领域有两种主流方法,基于自回归的理解模型和基于扩散的生成模型,各自代表作分别为自回归的 GPT 和生成式的 Sora:

  • GPT 的思路演化到具身智能领域,就是以 PI( Physical Intelligence )为代表的 VLA 技术,他是从视觉语言理解模型(VLM)微调而来,擅长抽象推理和语义理解。
  • 生成式的技术与机器人的碰撞,就诞生了 VPP 这样的生成式机器人大模型。

然而,人工智能领域存在着著名的莫拉维克悖论(Moravec's paradox):高级推理功能反而容易(例如围棋、数学题),下层的感知和执行反而困难(例如各种家务)。VLM 更擅长高层级的推理,而 AIGC 生成式模型更擅长细节处理。VPP 基于 AIGC 视频扩散模型而来,在底层的感知和控制有独特的优势。

如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

1. 提前预知未来:让机器人行动前做到 “心里有数”

以往机器人策略(例如:VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人 “看着答案” 行动,大大增强泛化能力。

VPP 视频预测结果与机器人实际物理执行结果几乎一致。能被视频生成的,就能被机器人执行!

2. 高频预测和执行:让机器人执行速度 “更快一步”

AIGC 视频扩散模型虽能生成逼真的视频,但往往花费大量推理时间。星动纪元研究团队发现,不需要精确地预测未来的每个像素,通过有效提取视频模型中间层的表征,单步去噪的预测就可以蕴含大量未来信息。这让模型预测时间小于 150ms,模型的预测频率约 6-10hz,通过 action chunk size = 10,模型的控制频率能超过 50Hz。

如图所示,单步视频扩散模型预测已经蕴含大量未来信息,足够实现高频预测(规划)和执行。

3. 跨本体学习:让机器人先验知识流通 “畅通无阻”

如何利用不同本体的机器人数据是一个巨大的难题。VLA 模型只能学习不同维度的低维度 action 信息,而 VPP 可以直接学习各种形态机器人的视频数据,不存在维度不同的问题。如果将人类本体也当作一种机器本体,VPP 也可以直接学习人类操作数据,显著降低数据获取成本。同时视频数据也包含比低维度动作更加丰富的信息,大大提高模型泛化能力。

VPP 能学习跨本体的丰富视频数据,相比之下,VLA 只能学习维度不一致的低维动作信号。

4. 基准测试领先:让机器人性能 “一骑绝尘”

在 Calvin ABC-D 基准测试中,实现了 4.33 的任务完成平均长度,已经接近任务的满分 5.0。相较于先前技术,VPP 实现了 41.5% 的显著提升。

左图为 Calvin ABC-D 任务的平均长度对比,右图为 Real-World Dexterous Hand 任务的成功率对比。可以看出,VPP 方法在这两项指标中均取得了最佳表现,在仿真环境任务完成平均长度达到 4.33,真机测试成功率为 67%,显著优于其他方法。

5. 真实世界灵巧操作:让机器人灵巧操作 “举一反三”

在真实世界的测试中,VPP 模型展现出了惊人的多任务学习能力和泛化能力。在星动纪元单臂 + 仿人五指灵巧手灵巧手 XHAND 平台,VPP 能使用一个网络完成 100+ 种复杂灵巧操作任务,例如抓取、放置、堆叠、倒水、工具使用等,在双臂人形机器人平台能完成 50+ 种复杂灵巧操作任务。

6. 可解释性与调试优化:让机器人 “透明可控”

VPP 的预测视觉表示在一定程度上是可解释的,开发者在不通过 real-world 测试情况下,通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。

而 VLA 模型是完全端到端的模型,开发者在调试优化中需要大量真实世界的测试来找到模型漏洞,需要花费大量的时间。

然而,就像在大模型领域 LLM 和生成式模型并存且互相借鉴融合的现状一样,VPP 作为首个 AIGC 生成式机器人大模型与 PI 等 VLA 大模型也会相互促进和借鉴。

相信在行业不断开源优质模型与技术的有力推动下,机器人技术将会迈向一个崭新的阶段,而具身 AGI 也将沿着这条创新之路大步走来,与我们的距离越来越近,一个充满无限可能的智能未来正在朝我们招手。

以下是 VPP 项目开源部署 Tips,供各位开发者参考:

  1. 所有实验均使用一个节点(8 卡 A800/H100)完成;
  2. 详细操作说明可在开源 GitHub 中找到;
  3. 实验仿真平台是标准 Calvin abc-d Benchmark;
  4. 实验真机平台为星动纪元仿人五指灵巧手星动 XHAND1 以及全尺寸人形机器人星动 STAR1。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

阿纂看事
2026-03-26 20:49:43
2-0!托纳利立大功,意大利完胜,杀入决赛,再赢一场=晋级世界杯

2-0!托纳利立大功,意大利完胜,杀入决赛,再赢一场=晋级世界杯

足球狗说
2026-03-27 05:38:22
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

柴狗夫斯基
2026-03-26 21:06:15
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

侧身凌空斩
2026-03-26 13:04:09
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

新民周刊
2026-03-26 19:12:17
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
世界杯需要意大利!四冠王意大利附加赛生死局,能否杀出重围?

世界杯需要意大利!四冠王意大利附加赛生死局,能否杀出重围?

宝哥爱足球
2026-03-26 00:07:41
追悼会从简,女儿独站告别厅,她一句话让人心碎

追悼会从简,女儿独站告别厅,她一句话让人心碎

周哥一影视
2026-03-27 03:37:44
伊朗总统:伊朗致力于结束战争 从未寻求拥有核武器

伊朗总统:伊朗致力于结束战争 从未寻求拥有核武器

财联社
2026-03-27 02:02:29
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
2026-03-27 06:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
健康
时尚
游戏
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

400万人爱过的女孩,被黄谣网暴180天后

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版