网易首页 > 网易号 > 正文 申请入驻

智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑

0
分享至



机器之心发布

机器之心编辑部

近日,智源研究院发布具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0 单机版。

RoboBrain 2.0,作为集感知、推理与规划于一体面向真实物理环境的 “通用具身大脑”,32B 版本凭借时空认知能力的突破,在多项权威具身智能基准上全面刷新纪录,此前发布的7B版本,具备紧凑高效的模型结构,其轻量化设计完美适配边缘设备部署需求,能在低资源环境下稳定运行,同时相比主流的开闭源模型性能依旧强劲。

RoboOS 2.0 作为全球首个具身智能 SaaS 开源框架,创新性集成MCP 协议与无服务器架构,实现轻量化部署,打通智能大脑与异构本体协同通路。同步推出单机版产品线及 RoboSkill 技能商店,通过深度集成实现机器人技能模块智能匹配与一键适配功能,标准化接口有效消除厂商与硬件适配流程差异。同步推出开箱即用镜像,支持 "三行指令" 极速部署,全面赋能开发者高效构建智能机器人系统。

具身大脑与跨本体大小脑协同框架双擎联动,将有效推动机器人从 “单机智能” 迈向 “群体智能”,加速具身智能技术从实验室走向真实场景,形成开放、高效、智能协同的具身智能生态体系。

1.RoboBrain 2.0突破三大能力瓶颈

模块化架构提升具身复杂推理

当前主流 AI 模型在应对真实物理环境时,普遍存在三大核心瓶颈:空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺。RoboBrain 2.0 则在这三大关键能力上实现全面突破,显著提升了对复杂具身任务的理解与执行能力。

空间理解:

  • 精确点定位和边界框预测:能够根据复杂指令在图像中定位物体或区域。
  • 空间关系理解:理解物体之间的相对位置和方向。
  • 空间推理:支持基于场景图的实时构建和更新,进行复杂的三维空间推理。

时间建模:

  • 长期规划:能够进行多步任务规划,支持长期目标的实现。
  • 闭环交互:支持基于反馈的动态调整,适应动态环境。
  • 多智能体协作:能够协调多个智能体的行为,完成复杂任务。

长链推理:

  • 链式推理:能够进行多步推理,支持复杂任务的逐步解决。
  • 因果逻辑:能够从复杂指令中提取因果逻辑,并与环境状态对齐。
  • 决策透明性:能够生成推理过程的详细解释,支持决策的透明性和可解释性。



RoboBrain能力概览图

RoboBrain 2.0 采用模块化的编码器 - 解码器架构,为复杂的具身任务实现了感知、推理和规划的统一。与专注于通用静态视觉问答(VQA)的传统视觉 - 语言模型(VLMs)不同,RoboBrain 2.0 在保持强大通用 VQA 能力的同时,专门针对具身推理任务,如空间感知、时间建模和长链因果推理。该架构将高分辨率图像、多视图输入、视频帧、语言指令和场景图编码为统一的多模态标记序列,以进行全面处理。



RoboBrain2.0 模型架构图

2.依托多模态数据集与分阶段训练策略

RoboBrain 2.0刷新性能基准

RoboBrain 2.0 依托全面且多样化的多模态数据集,融合高分辨率图像、多视角视频序列、场景图、3D 场景数据及复杂自然语言指令,全面赋能机器人在具身环境中的感知、推理与行动能力。该多模态数据集聚焦三大核心领域,为复杂物理场景提供有力支持。

  • 通用多模态理解:整合标准视觉问答、区域级查询、OCR 视觉问答及多轮视觉对话,优化语言表达的多样性与语义一致性,通过丰富的视觉 - 语言交互数据,提升模型对复杂任务的理解与响应能力,适应从简单问答到多轮对话的多样场景。
  • 空间感知:支持高精度物体定位、边界框预测及对象功能性识别,覆盖室内外复杂视觉场景与 3D 空间推理,助力机器人精准解析物体关系、空间属性及场景上下文,应对遮挡、多视角变化等挑战,满足高精度定位与交互需求。
  • 时间建模:通过多模态数据支持长程任务规划、闭环反馈机制及多智能体协作,强化模型在动态环境中的任务分解、动作序列预测及实时交互能力,确保在复杂物理场景中实现连续决策、灵活协作与高效任务执行。RoboBrain 2.0 以卓越的多模态感知、精细的空间推理及强大的长时规划能力,赋能机器人在具身环境中进行交互推理、多智能体协作及高效任务规划,助力复杂物理场景的智能感知与决策。



RoboBrain 2.0 训练数据集

RoboBrain 2.0 使用智源自研的大模型训推一体框架 FlagScale 进行大规模分布式训练,采用三阶段递进式训练流程

第一阶段:基础时空学习(Foundational Spatiotemporal Learning)

在第一阶段,RoboBrain 2.0 专注于构建其在空间感知和时间理解方面的基础能力。模型通过大规模多模态数据集进行训练,这些数据集涵盖了密集标注的图文数据、视频问答以及指代表达理解任务。通过这一阶段的训练,模型能够处理静态图像和视频流,掌握物体的基本空间关系和运动事件,为后续更复杂的任务奠定了坚实的基础。

第二阶段:具身时空增强(Embodied Spatiotemporal Enhancement)

在第二阶段,RoboBrain 2.0 通过引入高分辨率多视图图像、第一人称视频数据以及导航和交互任务,进一步增强其在具身任务中的时空建模能力。模型学习处理长序列的时空信息,支持多智能体协调、长期规划和动态环境中的适应性决策。这一阶段的训练使模型能够更好地将历史视觉信息与当前指令相结合,从而在动态交互环境中实现更连贯的长期规划和稳健的场景理解。

第三阶段:具身情境中的推理链训练(Chain-of-Thought Reasoning in Embodied Contexts)

在第三阶段,RoboBrain 2.0 通过监督微调和强化微调,进一步提升其在复杂具身任务中的推理能力。模型使用多轮推理示例进行训练,这些示例涵盖了长期任务规划、操作预测、闭环交互、时空理解以及多机器人协作等任务。通过这一阶段的训练,模型能够生成推理链,支持复杂任务的逐步推理和决策,从而在具身情境中实现更高效、更准确的推理和规划能力。



RoboBrain 2.0 采用 FlagEvalMM 框架,全面验证空间与时间推理能力。

  • 空间推理:在 BLINK(83.95)、CV-Bench(85.75)、Where2Place(73.59)等 9 项基准测试中,RoboBrain-32B/7B-2.0 屡获 SOTA,精准实现物体定位、边界框预测及空间参照,超越 Gemini、GPT-4o 等基线。
  • 时间推理:在多机器人规划(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)中,展现卓越长程规划、闭环反馈及多智能体协作能力,领跑 Qwen2.5-VL、Claude 等模型。



RoboBrain 2.0-32B 在 BLINK-Spatial、RoboSpatial、RefSpatial-Bench、Where2Place、EgoPlan2 和 Multi-Robot-Plan 等空间与时间推理基准上均取得最佳表现





RoboBrain 2.0 7B 模型分别以 83.95 分和 85.75 分登顶 BLINK 和 CV-Bench 基准测试。RoboBrain 2.0 32B 模型在 RoboSpatial、RefSpatial-Bench 以及 SAT、Where2Place 和 ShareRobot-Bench 上实现 SOTA 突破



RoboBrain 2.0 7B 模型在 Multi-Robot Planning 以 81.50 分拔得头筹,RoboBrain 2.0 32B 以 80.33 分紧随其后;RoboBrain 2.0 32B 在 Ego-Plan2(57.23 分)登顶,大幅领先 GPT-4o 等基线;RoboBrain 2.0 7B 模型则在 RoboBench 以 72.16 分夺魁,双模型凭借优异表现刷新性能上限

3.RoboBrain2.0与RoboOS 2.0双引擎

实现具身群体智能

依托跨本体大小脑协作框架 RoboOS 2.0 的多本体规划能力,RoboBrain 2.0 已实现多智能体间协作执行任务,支持商超厨房居家等多场景部署。





跨本体具身大小脑协作框架 RoboOS 2.0 是全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS 2.0 也是全球首个支持 MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。

RoboOS 2.0 实现了大脑云端优化推理部署与小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的 1/10。



RoboOS 2.0 框架(SaaS + MCP 模式)。RoboOS 是面向多机器人协作的 "大脑 - 小脑" 分层系统,包含三大核心组件:(a) 基于云计算的具身大脑模型,负责高级认知与多智能体协同;(b) 分布式小脑模块群,专司机器人专项技能执行;(c) 实时共享内存机制,强化环境态势感知能力。

相较于 1.0,RoboOS 2.0 对端到端推理链路进行了系统级优化,整体性能提升达30%,基于 FlagScale 端云协同模块,全链路平均响应时延低至 3ms 以下,端云通信效率提升27 倍。在功能层面,新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。



RoboOS 多机协作实现流程包含四个关键阶段:首先通过分层任务分解将复杂任务逐级拆解,随后基于网络拓扑结构进行子任务动态分配,再由分布式智能体集群并行执行各子任务,最后通过实时共享内存机制动态更新环境状态与任务进度。

基于 RoboOS 2.0 协作框架,可充分发挥 RoboBrain 2.0 强大的空间理解、时序规划与闭环推理能力的同时,一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的全链路无缝整合。

RoboBrain 2.0 可通过像素级空间理解,支持下游小脑模型高精度抓取、搬运、放置等操作,同时,根据实时感知任务执行状态调整执行计划,适应动态环境变化,实现闭环反馈机制。

4.RoboBrain 2.0与RoboOS 2.0全面开源

携手共建具身智能生态圈

目前,RoboBrain 2.0 及 RoboOS 2.0 已全面开源,模型权重、训练代码与评测基准全部可用。

RoboBrain 2.0:

  • Page:https://superrobobrain.github.io
  • GitHub:https://github.com/FlagOpen/RoboBrain2.0
  • ArXiv:https://arxiv.org/abs/2507.02029
  • Checkpoint-7B:https://huggingface.co/BAAI/RoboBrain2.0-7B
  • Checkpoint-32B:https://huggingface.co/BAAI/RoboBrain2.0-32B
  • RoboBrain2.0 的 FlagRelease 多芯片镜像:
  • https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS
  • https://huggingface.co/FlagRelease/RoboBrain2.0-32B-FlagOS
  • https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS-Ascend

RoboOS 2.0:

  • Page:https://flagopen.github.io/RoboOS
  • GitHub:https://github.com/FlagOpen/RoboOS
  • GitHub 单机轻量版:https://github.com/FlagOpen/RoboOS/tree/stand-alone
  • GitHub 技能商店:https://github.com/FlagOpen/RoboSkill
  • ArXiv:https://arxiv.org/abs/2505.03673

RoboBrain 2.0 及 RoboOS 2.0 一经开源,便在全球社交媒体和技术社区引发广泛热议。



目前,智源研究院已与全球 20 余家机器人企业与顶尖实验室建立战略合作关系,诚邀全球开发者、研究者与产业伙伴加入 RoboBrain 2.0 和 RoboOS 2.0 的开源社区,共筑开放繁荣的具身智能生态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

温情邮局
2025-11-11 10:58:54
建议中老年人:若不差钱,少吃鸡肉多吃这8样,高蛋白低脂又美味

建议中老年人:若不差钱,少吃鸡肉多吃这8样,高蛋白低脂又美味

美食店主
2025-11-18 00:31:56
国台办:已收到上万封举报邮件

国台办:已收到上万封举报邮件

澎湃新闻
2025-11-19 15:00:03
广东34分大胜上海!徐昕12分钟砍11+5,实力打脸杜锋,黄明依12分

广东34分大胜上海!徐昕12分钟砍11+5,实力打脸杜锋,黄明依12分

多特体育说
2025-11-19 22:11:35
舆论可能是假,但销量从不说谎,最近的手机榜有意思

舆论可能是假,但销量从不说谎,最近的手机榜有意思

互联网.乱侃秀
2025-11-17 10:09:24
力压吴艳妮夺金!广东女将刘景扬:用青春做了场自我实现的梦

力压吴艳妮夺金!广东女将刘景扬:用青春做了场自我实现的梦

南方都市报
2025-11-19 23:03:10
中日关系紧张:日本电影却在中国夺冠,票房井喷青少年疯狂观影!

中日关系紧张:日本电影却在中国夺冠,票房井喷青少年疯狂观影!

影像温度
2025-11-17 11:27:12
山东夺冠,31岁陈梦落泪,队友范思琦落后时,谁注意陈梦举动?

山东夺冠,31岁陈梦落泪,队友范思琦落后时,谁注意陈梦举动?

懂球社
2025-11-20 00:02:19
Gemini 3的意义:AI已超越“幻觉阶段”,逼近人类,“人机协作”将从“人对AI纠错”走向“人指导AI工作”

Gemini 3的意义:AI已超越“幻觉阶段”,逼近人类,“人机协作”将从“人对AI纠错”走向“人指导AI工作”

华尔街见闻官方
2025-11-19 08:40:24
内蒙古自治区乌海市人大常委会主任冯雪涛接受审查调查

内蒙古自治区乌海市人大常委会主任冯雪涛接受审查调查

界面新闻
2025-11-19 16:33:23
为啥天津大学和南开大学要搬到津南?网友:津南的房子2万卖给谁

为啥天津大学和南开大学要搬到津南?网友:津南的房子2万卖给谁

带你感受人间冷暖
2025-11-19 00:10:07
风向已变了!美德法韩英西班牙等国媒体纷纷把目光转向了中国

风向已变了!美德法韩英西班牙等国媒体纷纷把目光转向了中国

百态人间
2025-11-20 05:05:03
高市早苗拒不道歉,多位日本艺人公开表态,林志玲老公却沉默了

高市早苗拒不道歉,多位日本艺人公开表态,林志玲老公却沉默了

说历史的老牢
2025-11-19 14:47:01
仍有大批中国人赴日,游客量暴涨,消费却砍半,日本商家慌了

仍有大批中国人赴日,游客量暴涨,消费却砍半,日本商家慌了

布拉旅游说
2025-11-20 04:12:50
重磅:莫斯科再遭大规模空袭!俄罗斯最大机场被迫关闭

重磅:莫斯科再遭大规模空袭!俄罗斯最大机场被迫关闭

项鹏飞
2025-11-19 19:27:42
炸裂!切尔西疯狂追逐拉什福德,真相令人震惊!

炸裂!切尔西疯狂追逐拉什福德,真相令人震惊!

澜归序
2025-11-20 01:55:55
章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

何嗀爱捕渔
2025-11-18 19:00:17
乌克兰在前线摧毁中国制造的63式多管火箭炮

乌克兰在前线摧毁中国制造的63式多管火箭炮

桂系007
2025-11-19 03:18:49
开拓者队记:罗威预计要轮休,杨瀚森成球迷唯一兴奋点!

开拓者队记:罗威预计要轮休,杨瀚森成球迷唯一兴奋点!

爱体育
2025-11-19 20:50:16
中国官员双手插兜,怒视日本,这一载入史册的画面,是什么含义?

中国官员双手插兜,怒视日本,这一载入史册的画面,是什么含义?

江平舟
2025-11-19 16:09:46
2025-11-20 06:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

家居
数码
手机
本地
公开课

家居要闻

水岸美学 书香人文生活

数码要闻

猫头鹰黑化版散热器风扇来袭

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版