网易首页 > 网易号 > 正文 申请入驻

清华研究生开源大一统世界模型:性能超越硅谷标杆40%!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

国产开源具身世界模型,直接秒了Pi-0.5,而且还是几位清华硕、博士研究生领衔推出的。



这就是由生数科技联合清华大学,正式开源的大一统世界模型——Motus

项目主要负责人,是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷

之所以说是大一统,是因为Motus在架构上,直接把VLA(视觉-语言-动作)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式,首次实现了“看-想-动”的完美闭环。

而且在50项通用任务的测试中,Motus的绝对成功率比国际顶尖的Pi-0.5提升了35%以上,最高提升幅度甚至达到了40%!

在Motus的加持之下,现在的机器人已经具备了预测未来的能力。

瞧,Cloudflare人机验证任务,机器人可以轻松拿捏:



视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

从视频中不难看出,面对形状不规则的曲面鼠标,Motus控制的机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动,最后极度精准地完成点击。

再如长程多步推理的孔明棋任务,Motus同样展现出了严密的逻辑闭环,一步步解开棋局:



视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

再来看一个堪称是机器人噩梦的任务——叠衣服



视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

衣服这种柔性物体的形变是过程中持续不断发生的,但在Motus手下,整个过程丝滑顺畅,就像有了人类的触觉和预判一样。

可以说,Motus的出现,率先在具身智能领域发现了Scaling Law,直接复刻了当年GPT-2被定义为“无监督多任务学习者”的奇迹。

很多CTO、创始人们看完之后直呼“妙哉”:

  • 这是互联网视频学习与现实世界机器人之间的巧妙桥梁。
  • Motus的Latent Action范式太妙了。统一的VLA架构消除了机器人学中的模型碎片化,这才是真正的突破。
  • 将感知、预测和行动统一在智能体内部确实是实质性的进展。



包括此前大火的英伟达Cosmos policy、DreamZero这些工作,被认为是颠覆了VLA的范式,转向WA(World Action Models)或VA(Vision Action)范式;但其核心思想与Motus相近,大同小异。

目前,Motus的代码、模型权重已全部开源(链接在文末)。

那么接下来,我们就来扒一扒这个大一统世界模型是如何实现的。

一个架构统一了五种范式

在过去,具身智能领域可以说是散装的。

因为像VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等模型,很难有机地凑成一个整体。

而Motus最大的亮点,在一个框架内把这五种范式全包圆了。



大一统背后的技术,便是Mixture-of-Transformer(MoT)架构,配合Tri-model Joint Attention(三模态联合注意力)机制。

简单来说,通过这种方式,Motus相当于把三个专家攒到了一起:

  • 理解专家(大脑):基于Qwen-VL,负责看懂环境和指令;
  • 视频生成专家(想象力):基于Wan 2.2,负责推演未来画面;
  • 动作专家(小脑):负责具体的运动控制。

通过Tri-model Joint Attention,这三位专家可以在同一个注意力层里实时交换信息。

这就赋予了机器人一种很像人类的能力:不仅能看见(感知),还能在脑海里想象动作发生后的未来画面(预测),从而反过来倒推现在该做什么动作(决策)。

这正是我们刚才提到的“看—想—动”闭环。

但要训练这样一个全能模型,光在模型框架层面下功夫还是不够的——数据,也是一个老大难的问题。

因为机器人真机数据太贵、太少,而互联网上虽然有海量的视频,却只有画面,没有动作标签(Action Label)。

为了解决这个问题,Motus采取的策略便是潜动作(Latent Action)



研究团队利用光流技术(Optical Flow),捕捉视频里像素级的运动轨迹,然后提出了一种Delta Action机制,将这些像素的变化翻译成机器人的动作趋势。

这个思路可以说是比较巧妙,就像是让机器人看武侠片学功夫。

虽然没有人手把手教(没有真机数据标签),但机器人通过观察视频里高手的动作轨迹(光流),看多了自然就懂了招式和发力方向(潜动作)。



由此,上至昂贵的真机数据,下至浩如烟海的互联网视频、人类第一视角视频(Egocentric Video),Motus全都能吃进去,从中提取通用的物理交互先验。

除此之外,基于数据金字塔和潜动作,Motus还构建了一套三阶段训练流程,逐步将通用的物理动力学常识“蒸馏”为精确的机器人控制能力:

  • 视频生成预训练。利用多机器人轨迹和人类操作视频来微调视频生成专家,使其能根据条件帧和语言指令生成合理的机器人操作视频。
  • 潜动作预训练。在冻结VLM的情况下,用视频、语言和潜动作同时预训练三个专家,将通用的运动先验充分地注入Motus中。
  • 特定本体微调。利用目标机器人的真机数据对Motus进行整体微调,将模型适应到特定场景下的下游任务,例如RoboTwin仿真和真机机械臂抓取。



Scaling Law在物理世界跑通了

研究的实验结果表明:Scaling Law在物理世界里,真的跑通了。

在仿真榜单RoboTwin 2.0上,在50个通用任务中,Motus的平均成功率达到了88%



特别是在高难度的Stack Bowls Three(叠三个碗) 任务中,稍微一点误差就会导致碗塔倒塌。此前的基线模型在这个任务上的成功率不到16%,可以说是“帕金森级手抖”。

而Motus的成功率直接飙升至95%!

但比单点成绩更让人惊艳的,是下面这张Scaling Curves(扩展曲线)





△上图为数据量Scaling,下图为任务数量Scaling。红色为Motus,蓝色为Pi-0.5

随着训练任务数量的增加(横轴),蓝色的线(Pi-0.5)呈现下降趋势。这意味着传统的模型架构在面对多任务时,容易发生过拟合,学了新的忘了旧的。

而红色的线(Motus)则是一路持续上升。

这证明了:只要模型架构足够统一、数据来源足够杂,具身智能完全可以像LLM一样,涌现出跨任务的通用泛化能力。

这也正是GPT-2当年带给NLP领域的震撼——Language Models are Unsupervised Multitask Learners。现在,Motus在具身智能领域复刻了这一奇迹。

真机测试中,无论是AC-One还是Agilex-Aloha-2机械臂,Motus都表现出了较好的适应性。



△左:AC-One;右:Agilex-Aloha-2

数据显示,Motus的数据效率比对手提升了13.55倍。也就是说,达到同样的水平,Motus只需要别人十几分之一的数据量。

清华研究生领衔

最后,让我们把目光投向这个大一统世界模型背后的团队。

Motus由生数科技联合清华大学发布,而共同领衔的一作,是两位非常年轻的清华学生:

  • 毕弘喆(Hongzhe Bi):清华大学计算机系TSAIL实验室二年级硕士生。他的研究方向就是具身智能基础模型,此前还是CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
  • 谭恒楷(Hengkai Tan):清华大学计算机系TSAIL实验室三年级博士生。主攻视频世界模型和具身大模型,曾获NOI银牌,在RDT、Vidar等多个重要项目中都有他的身影。

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

而作为联合发布方的生数科技,这次开源Motus,也暴露了其在世界模型上的布局。

熟悉生数科技的朋友都知道,他们刚完成新一轮融资,而且一直坚持视频大模型是通往AGI的核心路径

在生数看来,视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的出现,正是这一战略的重要拼图。

它标志着机器人从“机械执行”向“端到端智能”的跨越,也推动了整个行业从单点突破走向统一基座。

产学研协作在这里发挥了巨大的化学反应:生数在多模态大模型上的深厚积累,加上清华团队的顶尖算法能力,才催生出了Motus这个大一统的世界模型。

Motus于25年12月就全部开源并发布论文,早于行业2个月,而最近火热的基于视频模型的具身智能路线,生数科技与清华大学在2025年7月份就已经发表Vidar具身视频模型,领先于行业半年之久。

目前,Motus已经全量开源。

感兴趣的小伙伴可以围观一下啦~

论文地址:
https://arxiv.org/abs/2512.13030

项目地址:
https://motus-robotics.github.io/motus

开源仓库:
https://github.com/thu-ml/Motus

模型权重:
https://huggingface.co/motus-robotics

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
2月7日周六《新闻联播》要闻23条

2月7日周六《新闻联播》要闻23条

财联社
2026-02-07 20:57:09
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

十里电影
2026-01-18 10:07:37
阿森纳 3-0 大胜!功臣不是进球者,名宿盛赞:他这表现太离谱

阿森纳 3-0 大胜!功臣不是进球者,名宿盛赞:他这表现太离谱

澜归序
2026-02-08 02:54:49
证监会重拳出击!一夜三家被罚,开年已22家公司被立案或处罚

证监会重拳出击!一夜三家被罚,开年已22家公司被立案或处罚

21世纪经济报道
2026-02-07 21:52:07
湖南卫视2026春晚全阵容官宣!顶流扎堆杀疯了,这波年味直接拉满

湖南卫视2026春晚全阵容官宣!顶流扎堆杀疯了,这波年味直接拉满

随性的海浪
2026-02-07 17:30:49
女性为什么偏爱发生关系时的“下流话”呢?

女性为什么偏爱发生关系时的“下流话”呢?

思絮
2026-01-24 15:03:12
“泡”女人,男人只要记住这两点,女人绝对会主动送上门

“泡”女人,男人只要记住这两点,女人绝对会主动送上门

小鬼头体育
2026-01-27 04:31:18
跨国领养为何被叫停?中国女孩被迫吞呕吐物,美国养父母连夜逃跑

跨国领养为何被叫停?中国女孩被迫吞呕吐物,美国养父母连夜逃跑

奇葩游戏酱
2026-02-07 20:25:51
小伙被下派到林场,与一个年轻女子住在破库房一同守夜

小伙被下派到林场,与一个年轻女子住在破库房一同守夜

晓艾故事汇
2025-08-11 17:17:57
沙特震撼一幕!3万名球迷高举7号标牌:支持C罗罢赛 胜利官方表态

沙特震撼一幕!3万名球迷高举7号标牌:支持C罗罢赛 胜利官方表态

风过乡
2026-02-07 06:12:38
广东省启动,2026年独生子女父母奖励:发放标准、所需材料?看看

广东省启动,2026年独生子女父母奖励:发放标准、所需材料?看看

虎哥闲聊
2026-02-07 12:58:11
爱泼斯坦案再爆猛料!惊现成龙电影导演,女演员实锤,牵连川普妻

爱泼斯坦案再爆猛料!惊现成龙电影导演,女演员实锤,牵连川普妻

浩瀚的星河
2026-02-07 15:58:18
海外产子真相大白后,40岁的江疏影近况曝光,她终于扬眉吐气了

海外产子真相大白后,40岁的江疏影近况曝光,她终于扬眉吐气了

让我的世界更加精彩
2026-02-08 01:22:47
夫妻性生活:女人最讨厌的5种“床上行为”,男人千万别犯!

夫妻性生活:女人最讨厌的5种“床上行为”,男人千万别犯!

精彩分享快乐
2025-11-25 00:05:03
泽连斯基受访状态堪忧,记者直言:似三月未眠

泽连斯基受访状态堪忧,记者直言:似三月未眠

天启谈古说今
2026-02-06 19:01:33
明明位置都还回来了,肖战为什么还是不入座?

明明位置都还回来了,肖战为什么还是不入座?

东方不败然多多
2026-02-07 02:29:29
王玉雯黑纱透视封神!这腰臀比太绝了,人间尤物不过如此?

王玉雯黑纱透视封神!这腰臀比太绝了,人间尤物不过如此?

娱乐领航家
2026-02-08 00:00:03
爱泼斯坦档案中比尔 · 盖茨的前俄罗斯女友:已被抛弃

爱泼斯坦档案中比尔 · 盖茨的前俄罗斯女友:已被抛弃

深度报
2026-02-06 21:50:52
2026-02-08 05:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12132文章数 176373关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

网购椅子多出15公斤银砖 男子紧急报警

头条要闻

网购椅子多出15公斤银砖 男子紧急报警

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

时尚
艺术
数码
本地
公开课

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

艺术要闻

这些女性在俄罗斯摄影师镜头下,魅力四射!

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版