网易首页 > 网易号 > 正文 申请入驻

清华系创企开源首个AIGC机器人大模型!靠互联网视频学人类动作,100 + 复杂任务全通

0
分享至

机器人前瞻5月8日报道,昨天,星动纪元宣布开源首个AIGC生成式机器人大模型VPP(Video Prediction Policy)。该模型由清华大学交叉信息学院的ISRLab和星动纪元共同研发,还入选了ICML 2025 Spotlight高分作品。

论文作者郭彦东解释,在这之前,机器人大模型普遍都是基于VLM(Vision-Language Model)模型的VLA模型(Vision-Language-Action Model)。而VPP则是基于类似Sora这样的AIGC生成式模型,它在训练过程中运用了海量互联网视频数据,可以根据当前场景生成视频,并让机器人执行物理动作。

比如,当机器人面对实验台上的烧杯、移液管时,VPP会生成使用移液管的动作视频,然后机器人就可以将溶液移动至目标烧杯中。


VPP将视频扩散模型的泛化能力转移到了通用机器人操作策略中,解决了diffusion推理速度的问题,让机器人可以实时进行未来预测和动作执行,提升了机器人策略泛化性。

VPP可分为两阶段的学习框架:第一阶段,VPP利用机器人及互联网操作数据集,将通用视频基础模型微调为专注于操作的文本引导视频预测(TVP)模型;第二阶段,通过Video Former和DiT扩散策略进行动作学习。


VPP具备以下显著特性:

1、精准预知未来场景,预测与执行高度契合​
传统机器人策略(如VLA模型)通常仅能依据当前观测数据开展动作学习,机器人需先行理解指令及场景,而后实施执行动作。

与之不同,VPP能够提前预知未来场景,且VPP的视频预测结果与机器人实际物理执行结果近乎一致,凡是能够被视频生成的动作,机器人均可顺利执行。

2、摒弃像素级精确预测,大幅提升预测效能​

尽管VPP具备预测未来场景的能力,但它并不会对未来每一像素进行精确预测,而是通过高效提取视频模型中间层表征,单步去噪预测便可蕴含丰富的未来信息。

单步视频扩散模型预测所蕴含的大量未来信息,足以支撑高频次预测(规划)与执行任务。

3、跨本体视频数据学习,拓展数据获取边界​
VPP能够直接对各种形态机器人的视频数据进行学习,如果将人类本体视为一种特殊的机器本体,VPP 同样能够直接学习人类操作数据,显著降低了数据获取成本。

同时,视频数据相较于低维度动作数据蕴含更为丰富的信息,有助于提升模型的泛化能力。

4、具备举一反三能力,实现多任务高效学习​

在星动纪元单臂+仿人五指灵巧手灵巧手XHAND平台,VPP能使用一个网络完成100+种复杂灵巧操作任务,包括放置、杯子扶正、重新定位、堆叠、传递、按压、拔插、开启以及复杂工具使用等任务。


在双臂人形机器人平台上,它还能完成50+种复杂灵巧操作任务,展现出卓越的多任务处理能力。

VPP的预测视觉表示在一定程度上具备可解释性,开发者无需借助真实世界测试,便能通过预测视频提前洞察可能失败的场景与任务,进而开展针对性调试与优化工作。​

此外,在Calvin ABC-D基准测试中,VPP达成了4.33的任务完成平均长度,接近任务满分5.0。较此前的先进方法,VPP实现了18.6%的相对性能提升;在真实场景的复杂灵巧操作任务中,其成功率提高了 31.6%。

总的来看,VPP打破了传统机器人对真机数据的过度依赖,为数据获取开辟了新路径,加速模型迭代优化。其在不同本体间的切换能力以及高效的预测和执行机制,为机器人的通用性与实时决策能力注入了新活力,将推动机器人从特定场景应用向更复杂、多元的实际场景迈进。

  • 论文地址:https://arxiv.org/pdf/2412.14803
  • 项目地址:https://video-prediction-policy.github.io
  • 开源代码:https://github.com/roboterax/video-prediction-policy

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

Emily说个球
2026-03-26 15:11:29
张雪峰经典名言 100 条(完整版)

张雪峰经典名言 100 条(完整版)

新浪财经
2026-03-25 06:17:25
张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

大运河时空
2026-03-25 15:15:03
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

铭记历史呀
2026-03-26 11:22:56
缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

椰黄娱乐
2026-03-24 11:36:57
立陶宛请求访华,当面向中方认错?中方已开出条件,做不到就免谈

立陶宛请求访华,当面向中方认错?中方已开出条件,做不到就免谈

临云史策
2026-03-25 21:59:37
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

清茶浅谈
2025-09-07 23:32:29
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
小摩:降三花智控目标价至42港元 维持“增持”评级

小摩:降三花智控目标价至42港元 维持“增持”评级

财联社
2026-03-26 16:05:03
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

白面书誏
2026-03-24 14:41:16
事关美国对伊朗动武,外媒最新爆料

事关美国对伊朗动武,外媒最新爆料

环球时报国际
2026-03-25 15:21:08
黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

有范又有料
2026-03-26 16:07:15
国家机密,洲际导弹的制造方法

国家机密,洲际导弹的制造方法

远方青木
2026-03-25 23:55:16
为啥萨哈夫能放生,革命卫队发言人必须被斩首

为啥萨哈夫能放生,革命卫队发言人必须被斩首

移光幻影
2026-03-21 10:13:06
2026-03-26 19:44:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11436文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
健康
房产
教育
军事航空

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

2026人工智能时代下的教育课堂变革

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版