网易首页 > 网易号 > 正文 申请入驻

清华研究生开源大一统世界模型:性能超越硅谷标杆40%!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

国产开源具身世界模型,直接秒了Pi-0.5,而且还是几位清华硕、博士研究生领衔推出的。



这就是由生数科技联合清华大学,正式开源的大一统世界模型——Motus

项目主要负责人,是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷

之所以说是大一统,是因为Motus在架构上,直接把VLA(视觉-语言-动作)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式,首次实现了“看-想-动”的完美闭环。

而且在50项通用任务的测试中,Motus的绝对成功率比国际顶尖的Pi-0.5提升了35%以上,最高提升幅度甚至达到了40%!

在Motus的加持之下,现在的机器人已经具备了预测未来的能力。

瞧,Cloudflare人机验证任务,机器人可以轻松拿捏:



视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

从视频中不难看出,面对形状不规则的曲面鼠标,Motus控制的机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动,最后极度精准地完成点击。

再如长程多步推理的孔明棋任务,Motus同样展现出了严密的逻辑闭环,一步步解开棋局:



视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

再来看一个堪称是机器人噩梦的任务——叠衣服



视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

衣服这种柔性物体的形变是过程中持续不断发生的,但在Motus手下,整个过程丝滑顺畅,就像有了人类的触觉和预判一样。

可以说,Motus的出现,率先在具身智能领域发现了Scaling Law,直接复刻了当年GPT-2被定义为“无监督多任务学习者”的奇迹。

很多CTO、创始人们看完之后直呼“妙哉”:

  • 这是互联网视频学习与现实世界机器人之间的巧妙桥梁。
  • Motus的Latent Action范式太妙了。统一的VLA架构消除了机器人学中的模型碎片化,这才是真正的突破。
  • 将感知、预测和行动统一在智能体内部确实是实质性的进展。



包括此前大火的英伟达Cosmos policy、DreamZero这些工作,被认为是颠覆了VLA的范式,转向WA(World Action Models)或VA(Vision Action)范式;但其核心思想与Motus相近,大同小异。

目前,Motus的代码、模型权重已全部开源(链接在文末)。

那么接下来,我们就来扒一扒这个大一统世界模型是如何实现的。

一个架构统一了五种范式

在过去,具身智能领域可以说是散装的。

因为像VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等模型,很难有机地凑成一个整体。

而Motus最大的亮点,在一个框架内把这五种范式全包圆了。



大一统背后的技术,便是Mixture-of-Transformer(MoT)架构,配合Tri-model Joint Attention(三模态联合注意力)机制。

简单来说,通过这种方式,Motus相当于把三个专家攒到了一起:

  • 理解专家(大脑):基于Qwen-VL,负责看懂环境和指令;
  • 视频生成专家(想象力):基于Wan 2.2,负责推演未来画面;
  • 动作专家(小脑):负责具体的运动控制。

通过Tri-model Joint Attention,这三位专家可以在同一个注意力层里实时交换信息。

这就赋予了机器人一种很像人类的能力:不仅能看见(感知),还能在脑海里想象动作发生后的未来画面(预测),从而反过来倒推现在该做什么动作(决策)。

这正是我们刚才提到的“看—想—动”闭环。

但要训练这样一个全能模型,光在模型框架层面下功夫还是不够的——数据,也是一个老大难的问题。

因为机器人真机数据太贵、太少,而互联网上虽然有海量的视频,却只有画面,没有动作标签(Action Label)。

为了解决这个问题,Motus采取的策略便是潜动作(Latent Action)



研究团队利用光流技术(Optical Flow),捕捉视频里像素级的运动轨迹,然后提出了一种Delta Action机制,将这些像素的变化翻译成机器人的动作趋势。

这个思路可以说是比较巧妙,就像是让机器人看武侠片学功夫。

虽然没有人手把手教(没有真机数据标签),但机器人通过观察视频里高手的动作轨迹(光流),看多了自然就懂了招式和发力方向(潜动作)。



由此,上至昂贵的真机数据,下至浩如烟海的互联网视频、人类第一视角视频(Egocentric Video),Motus全都能吃进去,从中提取通用的物理交互先验。

除此之外,基于数据金字塔和潜动作,Motus还构建了一套三阶段训练流程,逐步将通用的物理动力学常识“蒸馏”为精确的机器人控制能力:

  • 视频生成预训练。利用多机器人轨迹和人类操作视频来微调视频生成专家,使其能根据条件帧和语言指令生成合理的机器人操作视频。
  • 潜动作预训练。在冻结VLM的情况下,用视频、语言和潜动作同时预训练三个专家,将通用的运动先验充分地注入Motus中。
  • 特定本体微调。利用目标机器人的真机数据对Motus进行整体微调,将模型适应到特定场景下的下游任务,例如RoboTwin仿真和真机机械臂抓取。



Scaling Law在物理世界跑通了

研究的实验结果表明:Scaling Law在物理世界里,真的跑通了。

在仿真榜单RoboTwin 2.0上,在50个通用任务中,Motus的平均成功率达到了88%



特别是在高难度的Stack Bowls Three(叠三个碗) 任务中,稍微一点误差就会导致碗塔倒塌。此前的基线模型在这个任务上的成功率不到16%,可以说是“帕金森级手抖”。

而Motus的成功率直接飙升至95%!

但比单点成绩更让人惊艳的,是下面这张Scaling Curves(扩展曲线)





△上图为数据量Scaling,下图为任务数量Scaling。红色为Motus,蓝色为Pi-0.5

随着训练任务数量的增加(横轴),蓝色的线(Pi-0.5)呈现下降趋势。这意味着传统的模型架构在面对多任务时,容易发生过拟合,学了新的忘了旧的。

而红色的线(Motus)则是一路持续上升。

这证明了:只要模型架构足够统一、数据来源足够杂,具身智能完全可以像LLM一样,涌现出跨任务的通用泛化能力。

这也正是GPT-2当年带给NLP领域的震撼——Language Models are Unsupervised Multitask Learners。现在,Motus在具身智能领域复刻了这一奇迹。

真机测试中,无论是AC-One还是Agilex-Aloha-2机械臂,Motus都表现出了较好的适应性。



△左:AC-One;右:Agilex-Aloha-2

数据显示,Motus的数据效率比对手提升了13.55倍。也就是说,达到同样的水平,Motus只需要别人十几分之一的数据量。

清华研究生领衔

最后,让我们把目光投向这个大一统世界模型背后的团队。

Motus由生数科技联合清华大学发布,而共同领衔的一作,是两位非常年轻的清华学生:

  • 毕弘喆(Hongzhe Bi):清华大学计算机系TSAIL实验室二年级硕士生。他的研究方向就是具身智能基础模型,此前还是CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
  • 谭恒楷(Hengkai Tan):清华大学计算机系TSAIL实验室三年级博士生。主攻视频世界模型和具身大模型,曾获NOI银牌,在RDT、Vidar等多个重要项目中都有他的身影。

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

而作为联合发布方的生数科技,这次开源Motus,也暴露了其在世界模型上的布局。

熟悉生数科技的朋友都知道,他们刚完成新一轮融资,而且一直坚持视频大模型是通往AGI的核心路径

在生数看来,视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的出现,正是这一战略的重要拼图。

它标志着机器人从“机械执行”向“端到端智能”的跨越,也推动了整个行业从单点突破走向统一基座。

产学研协作在这里发挥了巨大的化学反应:生数在多模态大模型上的深厚积累,加上清华团队的顶尖算法能力,才催生出了Motus这个大一统的世界模型。

Motus于25年12月就全部开源并发布论文,早于行业2个月,而最近火热的基于视频模型的具身智能路线,生数科技与清华大学在2025年7月份就已经发表Vidar具身视频模型,领先于行业半年之久。

目前,Motus已经全量开源。

感兴趣的小伙伴可以围观一下啦~

论文地址:
https://arxiv.org/abs/2512.13030

项目地址:
https://motus-robotics.github.io/motus

开源仓库:
https://github.com/thu-ml/Motus

模型权重:
https://huggingface.co/motus-robotics

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
威廉夫妇出席大主教就职典礼!英国王储穿西服很绅士,凯特美翻了

威廉夫妇出席大主教就职典礼!英国王储穿西服很绅士,凯特美翻了

八八尚语
2026-03-26 11:20:24
已经穷到别人炫富都看不出来了!网友:知道的豪车就是宝马奔驰

已经穷到别人炫富都看不出来了!网友:知道的豪车就是宝马奔驰

夜深爱杂谈
2026-03-22 21:48:32
酸菜被关注!研究发现:吃得越多,寿命或越短?告诉您真相

酸菜被关注!研究发现:吃得越多,寿命或越短?告诉您真相

华庭讲美食
2026-03-24 05:52:10
东莞,要下暴雨了!

东莞,要下暴雨了!

东莞纪实
2026-03-26 17:38:40
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

北纬的咖啡豆
2026-03-26 22:20:06
德天空:曼城方面视孔帕尼、阿隆索为瓜迪奥拉的潜在接班人

德天空:曼城方面视孔帕尼、阿隆索为瓜迪奥拉的潜在接班人

懂球帝
2026-03-27 02:28:10
48岁深圳未婚女士征婚被群嘲  网友:你不懂中年男人择偶的真相

48岁深圳未婚女士征婚被群嘲 网友:你不懂中年男人择偶的真相

尘埃里的看客
2026-03-24 10:48:33
深圳25岁天才股神直言:炒股一定要做到五不碰,牢记三阴不破阳!

深圳25岁天才股神直言:炒股一定要做到五不碰,牢记三阴不破阳!

股经纵横谈
2026-03-26 21:19:51
最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈
2026-03-24 20:50:19
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

萌城少年强
2026-01-22 12:47:40
乌克兰的阳谋:特朗普解除对俄制裁,乌克兰对俄施加制裁

乌克兰的阳谋:特朗普解除对俄制裁,乌克兰对俄施加制裁

山河路口
2026-03-26 18:36:03
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
曝张雪峰心脏骤停ICU抢救,知情人曝抢救细节,微博上线不发声

曝张雪峰心脏骤停ICU抢救,知情人曝抢救细节,微博上线不发声

古希腊掌管松饼的神
2026-03-24 18:51:41
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
中国男篮官宣6月热身赛对手:将战澳大利亚与荷兰 承办赛区待定

中国男篮官宣6月热身赛对手:将战澳大利亚与荷兰 承办赛区待定

醉卧浮生
2026-03-26 20:30:46
这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

小莜读史
2026-03-26 20:10:12
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
日本教练谈奥运窒息一战:张本智和超水平发挥,樊振东扛住非人压力

日本教练谈奥运窒息一战:张本智和超水平发挥,樊振东扛住非人压力

乒乓助手
2026-03-27 00:05:21
跌成了白菜价也没人买,14亿人输给3亿美国人,电视到底怎么了?

跌成了白菜价也没人买,14亿人输给3亿美国人,电视到底怎么了?

小嵩
2026-03-24 22:09:12
长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

39健康网
2026-03-11 20:11:03
2026-03-27 03:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
健康
房产
本地
公开课

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版