网易首页 > 网易号 > 正文 申请入驻

清华研究生开源大一统世界模型:性能超越硅谷标杆40%!

0
分享至

来源:市场资讯

(来源:量子位)

国产开源具身世界模型,直接秒了Pi-0.5,而且还是几位清华硕、博士研究生领衔推出的。


这就是由生数科技联合清华大学,正式开源的大一统世界模型——Motus。

项目主要负责人,是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷。

之所以说是大一统,是因为Motus在架构上,直接把VLA(视觉-语言-动作)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式,首次实现了“看-想-动”的完美闭环。

而且在50项通用任务的测试中,Motus的绝对成功率比国际顶尖的Pi-0.5提升了35%以上,最高提升幅度甚至达到了40%!

在Motus的加持之下,现在的机器人已经具备了预测未来的能力。

瞧,Cloudflare人机验证任务,机器人可以轻松拿捏:


视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

从视频中不难看出,面对形状不规则的曲面鼠标,Motus控制的机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动,最后极度精准地完成点击。

再如长程多步推理的孔明棋任务,Motus同样展现出了严密的逻辑闭环,一步步解开棋局:


视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

再来看一个堪称是机器人噩梦的任务——叠衣服:


视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

衣服这种柔性物体的形变是过程中持续不断发生的,但在Motus手下,整个过程丝滑顺畅,就像有了人类的触觉和预判一样。

可以说,Motus的出现,率先在具身智能领域发现了Scaling Law,直接复刻了当年GPT-2被定义为“无监督多任务学习者”的奇迹。

很多CTO、创始人们看完之后直呼“妙哉”:


包括此前大火的英伟达Cosmos policy、DreamZero这些工作,被认为是颠覆了VLA的范式,转向WA(World Action Models)或VA(Vision Action)范式;但其核心思想与Motus相近,大同小异。

目前,Motus的代码、模型权重已全部开源(链接在文末)。

那么接下来,我们就来扒一扒这个大一统世界模型是如何实现的。

在过去,具身智能领域可以说是散装的。

因为像VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等模型,很难有机地凑成一个整体。

而Motus最大的亮点,在一个框架内把这五种范式全包圆了。


大一统背后的技术,便是Mixture-of-Transformer(MoT)架构,配合Tri-model Joint Attention(三模态联合注意力)机制。

简单来说,通过这种方式,Motus相当于把三个专家攒到了一起:

通过Tri-model Joint Attention,这三位专家可以在同一个注意力层里实时交换信息。

这就赋予了机器人一种很像人类的能力:不仅能看见(感知),还能在脑海里想象动作发生后的未来画面(预测),从而反过来倒推现在该做什么动作(决策)。

这正是我们刚才提到的“看—想—动”闭环。

但要训练这样一个全能模型,光在模型框架层面下功夫还是不够的——数据,也是一个老大难的问题。

因为机器人真机数据太贵、太少,而互联网上虽然有海量的视频,却只有画面,没有动作标签(Action Label)。

为了解决这个问题,Motus采取的策略便是潜动作(Latent Action)。


研究团队利用光流技术(Optical Flow),捕捉视频里像素级的运动轨迹,然后提出了一种Delta Action机制,将这些像素的变化翻译成机器人的动作趋势。

这个思路可以说是比较巧妙,就像是让机器人看武侠片学功夫。

虽然没有人手把手教(没有真机数据标签),但机器人通过观察视频里高手的动作轨迹(光流),看多了自然就懂了招式和发力方向(潜动作)。


由此,上至昂贵的真机数据,下至浩如烟海的互联网视频、人类第一视角视频(Egocentric Video),Motus全都能吃进去,从中提取通用的物理交互先验。

除此之外,基于数据金字塔和潜动作,Motus还构建了一套三阶段训练流程,逐步将通用的物理动力学常识“蒸馏”为精确的机器人控制能力:


研究的实验结果表明:Scaling Law在物理世界里,真的跑通了。

在仿真榜单RoboTwin 2.0上,在50个通用任务中,Motus的平均成功率达到了88%:


特别是在高难度的Stack Bowls Three(叠三个碗) 任务中,稍微一点误差就会导致碗塔倒塌。此前的基线模型在这个任务上的成功率不到16%,可以说是“帕金森级手抖”。

而Motus的成功率直接飙升至95%!

但比单点成绩更让人惊艳的,是下面这张Scaling Curves(扩展曲线)。



△上图为数据量Scaling,下图为任务数量Scaling。红色为Motus,蓝色为Pi-0.5

随着训练任务数量的增加(横轴),蓝色的线(Pi-0.5)呈现下降趋势。这意味着传统的模型架构在面对多任务时,容易发生过拟合,学了新的忘了旧的。

而红色的线(Motus)则是一路持续上升。

这证明了:只要模型架构足够统一、数据来源足够杂,具身智能完全可以像LLM一样,涌现出跨任务的通用泛化能力。

这也正是GPT-2当年带给NLP领域的震撼——Language Models are Unsupervised Multitask Learners。现在,Motus在具身智能领域复刻了这一奇迹。

在真机测试中,无论是AC-One还是Agilex-Aloha-2机械臂,Motus都表现出了较好的适应性。


△左:AC-One;右:Agilex-Aloha-2

数据显示,Motus的数据效率比对手提升了13.55倍。也就是说,达到同样的水平,Motus只需要别人十几分之一的数据量。

最后,让我们把目光投向这个大一统世界模型背后的团队。

Motus由生数科技联合清华大学发布,而共同领衔的一作,是两位非常年轻的清华学生:

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

而作为联合发布方的生数科技,这次开源Motus,也暴露了其在世界模型上的布局。

熟悉生数科技的朋友都知道,他们刚完成新一轮融资,而且一直坚持视频大模型是通往AGI的核心路径。

在生数看来,视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的出现,正是这一战略的重要拼图。

它标志着机器人从“机械执行”向“端到端智能”的跨越,也推动了整个行业从单点突破走向统一基座。

产学研协作在这里发挥了巨大的化学反应:生数在多模态大模型上的深厚积累,加上清华团队的顶尖算法能力,才催生出了Motus这个大一统的世界模型。

Motus于25年12月就全部开源并发布论文,早于行业2个月,而最近火热的基于视频模型的具身智能路线,生数科技与清华大学在2025年7月份就已经发表Vidar具身视频模型,领先于行业半年之久。

目前,Motus已经全量开源。

感兴趣的小伙伴可以围观一下啦~

论文地址:

https://arxiv.org/abs/2512.13030

项目地址:

https://motus-robotics.github.io/motus

开源仓库:

https://github.com/thu-ml/Motus

模型权重:

https://huggingface.co/motus-robotics

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
125人合同到期+欠薪缠身,沙特联赛要走中超老路?

125人合同到期+欠薪缠身,沙特联赛要走中超老路?

篮球看比赛
2026-02-07 18:06:09
乒乓球亚洲杯最新战报:女单4强已全部诞生,张本美和成黑马

乒乓球亚洲杯最新战报:女单4强已全部诞生,张本美和成黑马

刘笤说体坛
2026-02-07 21:07:00
Claude 的一个小更新,带崩了硅谷整个软件行业

Claude 的一个小更新,带崩了硅谷整个软件行业

极客公园
2026-02-06 16:33:25
米兰冬奥|2月7日看点:苏翊鸣大跳台卫冕战面临挑战,谷爱凌出战坡障预赛

米兰冬奥|2月7日看点:苏翊鸣大跳台卫冕战面临挑战,谷爱凌出战坡障预赛

上观新闻
2026-02-07 04:38:06
明确规定来了!机关事业单位职工下班后打牌打麻将,算违纪吗?

明确规定来了!机关事业单位职工下班后打牌打麻将,算违纪吗?

长星寄明月
2026-01-24 11:26:06
“公司终局是纯 AI、纯机器人!”马斯克酒后激进预言:让机器人造机器人,未来要靠AI留着人类智能

“公司终局是纯 AI、纯机器人!”马斯克酒后激进预言:让机器人造机器人,未来要靠AI留着人类智能

AI前线
2026-02-07 13:36:02
蓝营春天来了,萧旭岑满载而归,张荣恭发声,郑丽文迎来强援!

蓝营春天来了,萧旭岑满载而归,张荣恭发声,郑丽文迎来强援!

再战五百回合
2026-02-06 22:43:13
米娜酒后直播耍酒疯,先脱衣服后劈叉,粉丝刷礼物后大方展示身材

米娜酒后直播耍酒疯,先脱衣服后劈叉,粉丝刷礼物后大方展示身材

小霍霍
2026-01-18 15:26:37
越来越多人不用空调取暖,看看南方人的4种取暖方式,舒适又安全

越来越多人不用空调取暖,看看南方人的4种取暖方式,舒适又安全

装修秀
2026-02-07 11:40:03
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
中印加勒万河谷冲突,中方用一款先进武器,破除印军“雪豹计划”

中印加勒万河谷冲突,中方用一款先进武器,破除印军“雪豹计划”

阿胡
2024-05-15 11:59:57
结婚3年我正要提离婚,丈夫却突然开口:给你30万,咱俩各过各的

结婚3年我正要提离婚,丈夫却突然开口:给你30万,咱俩各过各的

墨染尘香
2026-02-06 19:20:04
魔鬼赛程我才是魔鬼!曼联1个月内连斩曼城、阿森纳和热刺

魔鬼赛程我才是魔鬼!曼联1个月内连斩曼城、阿森纳和热刺

懂球帝
2026-02-07 22:37:19
男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

极目新闻
2026-02-07 10:04:57
海航HU492飞往北京航班紧急返航,有乘客拍到飞机空中放油、挡风玻璃破裂,机型为波音787!海航通报:系机械故障,已安全降落

海航HU492飞往北京航班紧急返航,有乘客拍到飞机空中放油、挡风玻璃破裂,机型为波音787!海航通报:系机械故障,已安全降落

每日经济新闻
2026-02-07 14:07:08
重庆两名干部接受审查调查

重庆两名干部接受审查调查

潇湘晨报
2026-02-06 19:33:08
乱!乱!西部排名大乱!马刺冲第1,5队哄抢第3,快船翻身难了

乱!乱!西部排名大乱!马刺冲第1,5队哄抢第3,快船翻身难了

兵哥篮球故事
2026-02-07 17:28:31
75岁凶手棒杀2人,手机录到行凶过程!法院解释为何“棒杀侄女凶手已75岁仍判死刑”

75岁凶手棒杀2人,手机录到行凶过程!法院解释为何“棒杀侄女凶手已75岁仍判死刑”

扬子晚报
2026-02-06 21:53:29
米兰冬奥会团体赛:王诗玥/柳鑫宇首战告捷 暂列积分榜首

米兰冬奥会团体赛:王诗玥/柳鑫宇首战告捷 暂列积分榜首

环球体坛啄木鸟
2026-02-07 11:54:00
皇马疯了?砸世界纪录抢曼城弃子,贝林厄姆成最后杀招

皇马疯了?砸世界纪录抢曼城弃子,贝林厄姆成最后杀招

奶盖熊本熊
2026-02-07 05:16:51
2026-02-08 04:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2142146文章数 5393关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

教育
时尚
本地
数码
家居

教育要闻

高考地理中的数字产业

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

家居要闻

现代轻奢 温馨治愈系

无障碍浏览 进入关怀版