2月10日,阿里巴巴达摩院正式发布并开源了其具身智能大脑基础模型——RynnBrain。这一模型系列的重大突破在于,首次让机器人拥有了时空记忆和物理空间推理两大核心能力,标志着机器智能在理解和交互真实物理世界方面实现了关键跃升。
核心突破:让机器人“记住”并“理解”世界
与传统AI模型不同,RynnBrain的核心创新是赋予了机器人类似人类的认知基础:
- 时空记忆:机器人不仅能感知当前环境,还能在其完整的行动历史中定位物体、目标区域,甚至预测运动轨迹。这相当于赋予了机器人全局时空回溯能力,使其行动决策基于对过往经历的“记忆”,而不仅仅是瞬时感知。
- 物理空间推理:模型采用文本指令与空间定位信息交错进行的推理策略,确保每一个推理步骤都紧密扎根于具体的物理环境。这种方法大幅减弱了AI常见的“幻觉”问题,使机器人的规划和行动更加可靠、符合现实逻辑。
技术强劲:训练高效,性能全面领先
RynnBrain基于强大的视觉语言模型Qwen3-VL进行训练,并采用达摩院自研的RynnScale架构进行优化,在同等计算资源下实现了两倍的训练加速。其训练数据规模超过2000万对。
性能表现极为亮眼。在涵盖环境感知、第一人称视觉问答、空间推理、轨迹预测等维度的16项具身智能开源评测榜单上,RynnBrain全部刷新了纪录(SOTA),综合性能超越了谷歌的Gemini Robotics ER 1.5、英伟达的Cosmos Reason 2等当前行业顶尖模型。
高度可用:易于扩展,并全面开源
RynnBrain被设计为一个强大的基础模型,具有良好的可拓展性。基于它,开发者只需用几百条数据进行微调,就能快速训练出在导航、规划、动作等专项任务上表现优异的模型。例如,其微调出的具身规划模型,效果已能超越参数规模大得多的Gemini 3 Pro。
此次达摩院以开源完整的推理与训练代码的方式,发布了RynnBrain全系列共7个模型,包括不同尺寸的基础模型与后训练专用模型。其中尤为引人注目的是业界首个MoE(混合专家)架构的30B参数具身模型。该模型在推理时只需激活30亿参数,就能达到超越业界720亿参数模型的效果,这意味着未来机器人可以做出更快、更丝滑的实时反应。
此外,达摩院还同步开源了全新的评测基准RynnBrain-Bench,专门用于评估时空细粒度具身任务,填补了该领域标准评测工具的空白。
行业意义:迈向通用具身智能的关键一步
达摩院具身智能实验室负责人赵德丽表示,RynnBrain首次实现了AI大脑对物理世界的深度理解与可靠规划,为“大脑(决策)与小脑(控制)分层”的通用具身智能架构迈出了关键一步。此次全面开源,旨在降低行业研发门槛,加速AI从数字世界走向千行百业真实物理场景的落地进程。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.