「为行动而生」生数科技发布通用世界行动模型 Motubrain|机器人|轨迹|方向|模态|motubrain

「为行动而生」生数科技发布通用世界行动模型 Motubrain

2026-04-30 11:16:33　来源: 大京新闻网

北京举报

分享至

（原标题：「为行动而生」生数科技发布通用世界行动模型 Motubrain）

今天，生数科技正式发布通用世界行动模型 Motubrain。作为公司在世界模型方向的重要里程碑，Motubrain定位于具身智能机器人的通用大脑，具备多本体适配、多任务泛化和长程任务执行能力，能够支撑机器人在家庭、工业、商业等真实场景中，更稳定地完成连续复杂任务。

Motubrain 的核心突破，在于将“看到的世界”和“要执行的动作”放入同一个模型中统一建模，让机器人不仅能理解环境，也能想象/预测环境变化，并生成可执行的行动策略。

具体来看，Motubrain 基于原创的 UniDiffuser 框架统一建模视频与动作两类连续模态，使模型能够同时学习环境变化、动作执行与任务结果之间的关系。通过一次训练，Motubrain即可支持 VLA、视频生成、逆动力学模型、视频-动作联合预测等多种能力，不再依赖多个模型分别完成感知、预测、规划和执行。

在此基础上，Motubrain 进一步构建了视频、动作与语言协同的三流 MoT 架构，融合已有多模态预训练模型和专家模型能力，使模型能够同时完成场景理解、语言指令遵循、结果预测和动作生成。相比传统方法中感知、规划、执行各环节相互割裂的方式，Motubrain以统一架构打通完整任务链路，从而具备更强的语义理解能力、指令遵循能力和端到端行动能力。

更重要的是，统一建模让 Motubrain 能够从更广泛的数据中持续学习。它不仅可以吸收完整的机器人任务轨迹数据，也能够利用缺少动作标注的视频数据、缺少语言指令的任务无关数据，以及来自不同机器人本体的视频、动作和语言数据。相比传统 VLA 主要依赖特定机器人本体上的任务轨迹数据，Motubrain打破"数据墙"，充分利用海量异构数据，具有更强的可扩展性和泛化能力。

因此，Motubrain 不只是让机器人“学会执行动作”，而是让机器人具备理解世界、预测世界并作用于世界的能力。围绕这一目标，Motubrain形成了四项关键能力。

一脑多能，应对多种任务。

Motubrain能够在多任务场景中保持稳定表现，不再局限于单一任务训练。随着任务数量持续增加，任务之间的共享世界知识越多，模型的平均任务成功率也同步提升，展现出更强的多任务统一能力与泛化能力。

一脑多型，适配多种本体。

Motubrain并不是为某一种机器人量身定制，而是面向多机器人本体设计的统一智能底座。它具备多本体适配能力，打破了“一个机器人一个模型”的传统模式。模型能很好的利用异构数据，随着生态内机器人种类、场景和数据不断丰富，模型能力还能够持续提升，形成更强的通用性，并进一步反哺生态内每一类机器人的表现。

一脑贯通，长程任务一步完成。

Motubrain能够直接学习完整任务链路，无需上层规划、任务拆解、快慢双系统或多模型拼接，在复杂长程任务中实现更高的成功率。一个World Action Model即可完成10个原子动作级别的复杂长程任务，而不止停留在2-3个原子动作的 Demo 展示。机器人面对的，不再只是一个个孤立动作，而是一项需要持续推进、完整闭环的任务。

一脑预见，实现动态决策。

Motubrain 不只是执行指令，更能够理解世界并预测环境变化，并据此推演更合理的动作与运动路径。通过将理解世界、预测世界和执行动作统一建模，模型能够在动态场景中持续判断、调整与行动，实现“预测世界，也驱动行动”。

这些能力并不局限于单一环境，而是面向更广泛的真实世界场景展开。在家庭场景中，Motubrain可以支持备餐、整理、服务等连续任务；在工业场景中，可适配分拣、搬运、装配等更复杂的流程操作；在商业场景中，则能够支撑导览、取送、陈列整理、服务协同等多步骤任务执行。

目前，Motubrain 已在 WorldArena 与 RoboTwin 2.0 两项国际权威榜单上取得第一，验证了“预测世界”与“驱动行动”统一建模的可行性，也标志着生数科技正在进一步推动通用物理大脑从技术探索走向真实世界应用。

双榜第一：在世界中预测，在世界中行动

Motubrain此次发布最引人瞩目的成绩，是在两个长期被视为“不同能力极点”的国际权威榜单上同时问鼎。其中，WorldArena 聚焦世界模型能力，衡量模型是否真正理解和预测物理规律；RoboTwin 2.0 聚焦机器人执行能力，衡量模型在复杂、随机环境中的任务执行与泛化能力。

这两个榜单，看似分别对应不同方向，实际上指向的是具身智能最核心的两类能力：一个是看懂世界、预测世界，一个是进入世界、作用世界。

在 WorldArena 测试中，Motubrain 在动作真实度（Motion Quality）、轨迹连贯性（Flow Score）以及物理平滑度（Motion Smoothness）等关键维度均斩获第一，展现出对真实物理运动规律的深刻理解。

在 RoboTwin 2.0 中，Motubrain 面对50个复杂任务，平均得分达到 96.0，成为榜单上唯一一个在随机环境下平均分超过95的模型，表现出极强的任务执行稳定性与跨场景泛化能力。

这意味着，Motubrain的领先并不止于单项能力突破，而是在同一模型框架中更系统地统一了“看懂世界”与“驱动行动”。过去那种“会看不会动”或“能动但缺乏预判”的技术断层，正在被进一步打通。

从 Motus 到 Motubrain：World Action Model 成为具身智能新路径

在世界模型的技术演进中，生数科技坚定选择了一条更前沿、也更具挑战性的路线——World Action Model（WAM）。

早在2025年12月，生数科技便正式开源 Motus，早于行业约2个月提出并验证了 World Action Models 的核心思想，为通用世界行动模型的发展奠定了基础。

在 Motus 的基础上，Motubrain 作为商用模型版本，进一步面向真实机器人场景完成系统升级，将 World Action Models 从技术验证推向更通用、更可落地的具身智能大脑。

首先，Motubrain支持任意视角数量的统一建模。

它能够打通不同相机配置和视觉输入形态，让模型不再依赖固定视角或固定传感器组合，从而更好适配真实世界中复杂多变的感知条件。

其次，Motubrain引入独立的语言理解通路。

语言不再只是附加在视觉特征上的条件输入，而是深度参与行动生成过程，打通高层语义理解与低层动作控制之间的交互，使模型具备更强的指令遵循能力。

第三，Motubrain通过统一 Action 表征打通不同机器人本体。

模型学习的不再是某一台机器人的动作格式，而是跨本体可迁移的行动规律，从而支持不同形态机器人之间的能力复用与持续进化。

第四，Motubrain具备更强的长程任务执行能力。

通过自回归与 Diffusion 结合，以及语言、动作、视频三流 MoT 架构，模型能够直接完成超过10个原子动作级别的长序列任务，使复杂任务执行不再完全依赖上层任务拆解、多模型拼接或快慢双系统。

最后，Motubrain支持超大规模具身模型的实时闭环控制。

通过云、边、端协同推理机制，大参数量具身基座模型也能够在真实机器人系统中实现实时响应，让更高智能水平的模型真正进入物理世界执行任务。

从 Motus 到 Motubrain，生数科技持续推进 World Action Models 的技术演进：从统一建模世界与行动，到打通多视角、多本体、多任务与长程执行，推动机器人从“执行动作”迈向“端到端完成任务”。

从数字空间到物理空间：生数科技的通用世界模型战略进一步成型

Motubrain并不仅仅是一次模型产品发布，而是生数科技通用世界模型战略在物理空间上的关键落子。

长期以来，生数科技持续围绕通用世界模型（Foundation World Model）进行布局，向上延展出贯通数字空间与物理空间的双轨体系，形成面向通用智能的核心基础架构。

在数字空间，生数科技基于世界生成模型（WGM）打造视频大模型产品 Vidu，持续推动AI在内容生成、交互与数字生产力场景中的落地；

在物理空间，生数科技基于世界行动模型（WAM）推进具身智能方向，持续探索机器人在真实世界中的理解、预测与执行能力统一。

这背后的底层支撑，是生数科技基于全球首创Diffusion-Transformer融合架构U-ViT 所构建的多模态能力体系。通过持续积累视觉、听觉、触觉等多模态信息，生数科技正不断完善对世界的统一认知、建模与推演能力，为数字世界和物理世界的智能应用提供共同底座。

由此，生数科技正在逐步构建起一条贯通理解世界、生成世界与行动于世界的完整闭环，让通用世界模型真正成为连接数字世界与物理世界的桥梁。

从技术验证走向产业实战：生态协同正在加速展开

技术的高度决定上限，落地的深度决定规模。Motubrain的意义，不仅在于它验证了“通用机器人大脑”的可行性，也在于它正开始沿着产业路径向真实世界延展。

近期，生数科技已先后与业内领先的具身智能公司无界动力、深朴智能、星尘智能等企业达成战略合作，围绕通用具身智能大脑方向展开协同，持续推进基础模型演进、多模态与具身数据融合、高质量数据体系构建，以及软硬件一体化优化等关键能力建设。

通过与机器人本体、数据、场景和应用生态伙伴的持续联动，生数科技正以通用世界模型重新定义具身智能的技术底座，推动世界模型与机器人系统深度融合，构建面向真实世界应用的开放生态体系。

如果说Motubrain回答的是“通用大脑能不能成立”，那么与具身智能企业的深度联手，则进一步回答了“这样的通用大脑如何走进真实场景”。

这意味着，生数科技正加快形成一条从通用世界模型到机器人本体适配，再到真实场景落地的完整链路。Motubrain不只是一次技术发布，也不只是一次 Benchmark 成绩刷新，而是生数科技在世界模型方向上，从能力验证走向生态推进、从技术突破走向产业实战的重要节点。

本文来源：大京新闻网责任编辑：贺谊烁_NB5132

手机 / 数码

房产 / 家居

「为行动而生」生数科技发布通用世界行动模型 Motubrain

9000亿美元估值，Anthropic即将反超OpenAI

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

季后赛场均5.4分，他凭啥在骑士打首发？

孙杨博士学历有问题？官方含糊其辞

易会满被“双开”！

专访捷途汪如生：捷途双线作战 全球化全面落地

态度原创

熬了6年，涨了2亿，三亚核心区这块地再次上架

华为Pura 90 Pro Max体验：AI拍片，比2亿长焦还狠

安东·爱德华·基尔德鲁普：19世纪丹麦风景画家

用青花瓷的方式，打开西溪湿地

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

英国国王给特朗普送了口钟还贴脸开大"有需要尽管敲"

专访捷途汪如生：捷途双线作战全球化全面落地