网易首页 > 网易号 > 正文 申请入驻

中兴EmbodiedBrain模型让具身大脑学会「复杂规划」

0
分享至

在人工通用智能(AGI)的探索征程中,具身智能 Agents 作为连接数字认知与物理世界的关键载体,其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环。

然而,当前主流大语言模型(LLMs)与多模态大语言模型(MLLMs)在具身任务场景中,普遍面临三大核心瓶颈:一是模型设计与智能体实际需求存在显著脱节,难以适配物理世界的动力学特性、传感器噪声与动态变化;二是实时延迟与任务性能间存在不可调和的权衡,轻量化模型虽能满足实时性需求,却在指令遵循、空间感知等关键能力上表现薄弱;三是现有评估依赖非真实的离线指标,无法全面反映模型在复杂真实场景中的鲁棒性与泛化能力。

为此,中兴星云大脑团队(ZTE NebulaBrain Team)重磅推出具身视觉 - 语言基础模型 EmbodiedBrain,以 7B 和 32B 两种参数规格构建了涵盖数据架构、训练策略、评估体系的全流程创新框架,为下一代通用具身智能体的发展提供了突破性解决方案。

  • Arxiv: https://arxiv.org/abs/2510.20578
  • WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/
  • Code: https://github.com/ZTERobot/EmbodiedBrain1.0/
  • Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7B
  • https://huggingface.co/ZTE-AIM/EmbodiedBrain-32B

架构创新:模块化设计实现感知 - 推理 - 行动一体化闭环

EmbodiedBrain 以 Qwen2.5-VL 为基础框架,创新性地采用模块化编码器 - 解码器架构,成功打通了「感知 - 推理 - 行动」的全链路,实现了三大核心能力的深度协同(图 1)。

图 1 EmbodiedBrain 的架构:该模型处理多种多模态输入,包括任意分辨率的图像、长视频序列以及复杂的语言指令。视觉输入由视觉编码器和 MLP 投影器处理,文本输入则进行分词处理。所有输入被送入核心大语言模型(LLM)解码器,该解码器执行深度推理并生成结构化输出。最终输出包含三部分:自然语言响应(

)、分步规划(

)和可执行动作序列(

),从而实现对具身环境的直接控制与交互。

该架构的三大核心组件各司其职且高效联动:

1. 原生分辨率视觉 Transformer(ViT):作为视觉编码器,其采用窗口 注意力机制,能够在处理原生分辨率图像时兼顾效率与细节捕捉;同时引入二维旋转位置编码(2D Rotary Positional Embedding, ROPE),精准保留图像中的空间几何关系,为后续空间推理提供扎实的视觉基础。

2. 轻量级 MLP 视觉 - 语言融合器:承担视觉特征与语言嵌入空间的「桥梁」作用,通过压缩视觉特征维度、对齐模态语义分布,确保视觉信息与语言指令能够在统一的表示空间中高效交互,避免多模态信息割裂导致的理解偏差。

3. 基于 Qwen2.5 初始化的解码器:作为模型的「认知核心」,采用仅解码器结构,引入时间对齐的多模态 ROPE(Multimodal RoPE Aligned to Absolute Time)技术,显著强化对长视频序列的时序理解能力,能够处理动态场景中的时间依赖关系。

从工作流程来看,视觉输入首先经视觉编码器与 MLP 融合器处理,转化为与语言兼容的特征;文本指令经分词后与视觉特征共同构成多模态 token 序列,输入解码器;最终解码器输出包含三部分的结构化结果:

字段提供自然语言交互反馈,

字段将任务分解为 [Navigate](导航)与 [Manipulate](操作)两类可解释步骤,

字段以二元 / 三元组格式生成直接调用智能体 API 的可执行动作。

以「从冰箱取番茄并加热」任务为例(图 1),模型可生成「导航至冰箱→打开冰箱→取出番茄→导航至微波炉→加热番茄」的清晰规划,以及对应的 [Navigate, Fridge]、[Manipulate, Open Fridge] 等动作序列,完美实现从语义理解到物理执行的闭环。

数据与训练:Agent 对齐设计与强化学习突破长程规划瓶颈

数据架构:面向具身智能的结构化设计与多源筛选

为解决模型与具身智能体需求脱节的根本问题,EmbodiedBrain 创新设计了规划中心型结构化数据格式(图 2、图 3),该格式严格遵循「用户查询 - 模型响应 - 显式规划 - 底层动作」的层级逻辑,确保高层任务目标与底层执行步骤的精准对齐。

以「将脏衣服放入洗衣机」任务为例(图 2),

字段明确交互意图,

字段分解为 5 个导航与操作步骤,

字段以 [Search, Dirty clothes]、[Navigate, Basket] 等标准化格式生成动作,既满足机器可解析性,又保留人类可解释性。

图 2: EmbodiedBrain 训练数据概览

训练数据涵盖四大核心类别,通过多阶段筛选策略保障质量:

1. 通用多模态指令数据:包括 tulu-3-sft-personas-instruction-following(10K 样本,强化指令遵循与约束满足)、UltraIF-sft-175k(20K 样本,含单轮 / 多轮对话,提升长程记忆)、MM-IFInstruct-23k(22K 样本,结合图像接地对话,强化多模态 grounding),为模型奠定通用指令理解基础。

2. 空间推理数据:基于 EmbSpatial 与 pixmo-points 数据集,通过「基线模型生成验证 + GPT-4o 二次过滤」的两阶段拒绝采样(图 2),筛选出 50K 空间推理样本(含目标查询、物体关系推理)与 60K 视觉定位样本(含计数、坐标标注),强化模型对三维空间的理解能力。

3. 任务规划数据:基于 Alfred 数据集(AI2-THOR 环境),通过解析 PDDL 文件生成子任务序列、捕获全景图像与物体边界框、动态更新物体位置等流程(图 3),构建空间接地的规划数据集,确保规划步骤与物理环境适配。

4. 视频理解数据:融合 Ego4D、Epic-Kitchens、EgoPlan-IT 三大数据集,生成「回顾性理解」(如「已完成何种动作」)与「前瞻性规划」(如「下一步应执行何种动作」)两类 QA 样本,并通过 Qwen2.5-VL-72B 过滤确保数据质量,提升模型对动态场景的时序推理能力。

图 3 监督微调(SFT)阶段的整体数据分布及各动作的规划数据分布

在数据配比上,通过对比 5 种不同数据混合方案(表 1),发现「通用 MLLM 数据 52K: 空间推理数据 130K: 任务规划数据 51.5K: 视频理解数据 20K」的配比(52:130:51.5:20)效果最优 —— 该配比在空间推理平均得分达 70.27%(仅比最高值低 0.6%),同时在任务规划平均得分达 64.64%(为所有方案最高),尤其在执行规划(EP1/EP2)与目标导向推理(EgT)子任务上提升显著,为后续训练奠定了均衡的数据基础。

训练策略:两阶段范式与 Step-GRPO 创新突破

EmbodiedBrain 采用「监督微调(SFT)+ 强化学习(RL)」的两阶段训练策略,层层递进优化模型能力:

图 4 所提出的 Step-GRPO 的详细流程

Stage 1:多模态拒绝采样 SFT:核心目标是提升模型的基础感知与推理能力。针对数据噪声问题,设计 “粗粒度过滤 + 细粒度验证” 的两阶段拒绝采样:首先用 Qwen2.5-VL-7B 生成 8 个候选响应,通过 Qwen3-30B-A3B-Instruct-2507 筛选掉明显错误样本;再用 Qwen2.5-VL-72B 生成 “ oracle 答案”,与原始标签对比,剔除标签错误样本。该过程有效去除数据噪声,确保 SFT 阶段学习信号的可靠性。

Stage 2:Step-GRPO 多任务强化学习:如何让模型在没有人类手把手教学的情况下,学会处理复杂的长序列任务?EmbodiedBrain 给出的答案是Step-GRPO(分步增强的组相对策略优化)。类似于 DeepSeek-R1 等推理模型背后的强化学习思路,Step-GRPO 引入了「引导先验」机制。这就好比老师在教学生解难题时,不是直接给答案,而是给出关键的中间步骤提示。这种机制将复杂的长任务拆解为可逐步优化的子问题,配合异步奖励计算架构,不仅让模型学会了「三思而后行」,还实现了约 20% 的训练加速。

聚焦长程任务规划与输出格式标准化。针对传统强化学习在长序列规划中稳定性差、收敛慢的问题,创新提出 Step-Augumented Group Relative Policy Optimization(Step-GRPO)方法(图 4):在任务规划时,随机引入 1-3 步前置规划步骤作为「引导先验」(Guided Precursors),将复杂长任务分解为可逐步优化的子问题。例如在「寻找画笔」任务中,通过注入「导航至设备架」、「定位画笔」等前置步骤,帮助模型建立步骤间的依赖关系,提升规划连贯性。

同时,为提升训练效率与奖励可靠性,EmbodiedBrain 设计了多维度奖励系统:

1. 指令遵循任务:基于答案与真值的匹配度计算正确性奖励;

2. 视觉感知任务:接地与检测任务采用加权 IoU 评分,计数任务采用数值匹配度;

3. 空间感知任务:区分选择题与描述题,结合语义一致性与简洁性评分;

4. 任务规划任务:采用「规则奖励(0-1 分,评估 XML 格式完整性、动作集合规性)+GRM 奖励(0-1 分,Qwen3-30B-A3B 评估规划合理性)」的双重机制,平衡格式规范性与规划逻辑性。

此外,通过异步奖励计算架构,将 GRM 推理与 RL 训练解耦,实现约 20% 的训练加速,且无性能损失。

表 1:不同数据混合配置下冷启动监督微调(SFT)性能评估(所有数值单位为 %)

评估体系:三维基准与开源环境构建真实能力校验


为全面、客观验证模型性能,EmbodiedBrain 构建了包含通用多模态能力、空间感知、端到端仿真规划的三维评估体系,覆盖 14 项主流基准测试,彻底解决传统离线评估的局限性。

多维度基准设计与性能表现

1. 通用多模态能力评估(5 项基准):采用 MM-IFEval(指令遵循)、MMMU(跨学科推理)、MMStar(多模态综合推理)、AI2D(图表理解)、OCRBench(图像文本推理),全面检验模型的基础多模态能力。实验结果(表 2)显示,EmbodiedBrain-32B 在 MM-IFEval 达 46.98%,较 Qwen2.5-VL 32B(46.66%)与 RoboBrain 2.0 32B(39.75%)显著领先;在 MMStar 达 65.80%,超越同类模型,证明其在保留通用能力的同时,实现了具身场景的专项提升。

表 2:EmbodiedBrain 与先前模型在 14 个不同基准测试上的性能对比。每个基准测试组中最高分数以粗体突出显示。

2. 空间感知能力评估(4 项基准):通过 BLINK(空间关系理解)、CV-Bench(3D 物体属性推理)、EmbSpatial(第一视角空间关系)、ERQA(端到端多模态推理),检验模型对三维空间的理解能力。表 2 数据显示,EmbodiedBrain-7B 在 BLINK 达 88.11%,较 RoboBrain 2.0 7B(62.94%)提升 39.99%;32B 版本在 CV-Bench 达 83.64%,EmbSpatial 达 77.03%,均为所有测试模型最高,印证了其空间推理能力的优越性。

3. 任务规划能力评估(5 项基准):涵盖 EgoPlan-Bench、EgoPlan-Bench2、EgoThink 等公开基准,以及自主设计的 Internal Planning 基准与 VLM-PlanSim-99 仿真基准。其中,Internal Planning 基准针对长程规划能力,采用「匈牙利算法计算动作匹配度 + LCS 算法计算顺序一致性」评估方法,EmbodiedBrain-32B 的 F1 分数达 90.50%,较 Qwen2.5-VL 32B(28.30%)提升超 2 倍。此外,为了拒绝「刷榜式」的虚高分数,团队提出并开源了包含 99 个手动验证家庭任务的 VLM-PlanSim-99 仿真基准,在最考验「真功夫」的端到端仿真规划中,EmbodiedBrain-32B 斩获了 46.46% 的成功率,几乎是 Qwen2.5-VL 32B (25.25%) 和 RoboBrain 2.0 32B (24.24%) 的两倍。这一数据有力证明了:EmbodiedBrain 不是一个只会做选择题的模型,而是一个真正能干活的具身大脑。

图 5:EmbodiedBrain 的空间推理示例

典型案例验证:从空间推理到端到端执行

在空间推理任务中(图 5),EmbodiedBrain 能够精准回答「物体相对位置」、「目标物体计数」、「空间关系判断」等问题,例如正确识别「车门在左侧」、「手中物品为鸡蛋」,展现出对复杂空间线索的整合能力。

图 6:EmbodiedBrain 为「在水槽清洗苹果后将其放入冰箱」任务生成的成功 11 步规划定性示例。该模型正确识别并执行了两个连续子目标:(1) 步骤 1-6:获取物体、将其置于水槽并清洗;(2) 步骤 7-11:拿起清洁后的物体并将其存放在冰箱中。

在任务规划案例中,针对「烘焙糕点设置计时器」任务, EmbodiedBrain 正确选择「安装计时器」动作,而 RoboBrain 2.0 与 Qwen2.5-VL 分别选择错误的「搅拌面糊」、「预热烤箱」;针对「清洗碗具并冷藏」任务,模型生成 11 步完整执行序列(图 6),从「导航至碗具→放入水槽→清洗→导航至冰箱→存放」,每一步均符合物理逻辑与任务流程,实现端到端闭环。

开源共享与未来展望:赋能具身智能生态发展


作为面向全球科研社区的开放成果,中兴团队已将 EmbodiedBrain 的全部训练数据、模型权重与评估方法开源(https://zterobot.github.io/EmbodiedBrain.github.io),同时开源了创新的 VLM-PlanSim-99 仿真环境,为具身智能领域提供了统一的基准平台与工具链,有效解决了现有研究中「数据封闭」、「评估标准不一」的痛点。

未来,EmbodiedBrain 将重点推进两大方向:一是拓展至多智能体协同任务,探索多智能体间的分工、通信与协作机制;二是研究领域随机化技术,提升模型在不同真实机器人平台(如家庭服务机器人、工业协作机器人)上的适配性,推动具身智能从仿真环境走向实际应用。

中兴星云大脑团队以 EmbodiedBrain 为契机,不仅在学术层面突破了具身智能任务规划的性能边界,更在产业层面为 AGI 落地物理世界提供了可复用的技术框架。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜克出品再创神迹!2026年探花卡梅隆·布泽尔加盟灰熊,亲述接过欧文塔图姆火炬的野心

杜克出品再创神迹!2026年探花卡梅隆·布泽尔加盟灰熊,亲述接过欧文塔图姆火炬的野心

甜份超标的我
2026-06-25 00:40:42
“多买一杯奶茶能怎么样?”不给弟弟奶茶事件发酵,三观正的发邪

“多买一杯奶茶能怎么样?”不给弟弟奶茶事件发酵,三观正的发邪

林林先生
2026-06-25 22:47:22
黄植诚婚后妻子赴美失联,宅院连夜查封,屋内究竟搜到何物

黄植诚婚后妻子赴美失联,宅院连夜查封,屋内究竟搜到何物

磊子讲史
2026-06-23 12:00:56
传奇落幕!18年半掌控美联储,三次救中国!一句话改写全球经济史

传奇落幕!18年半掌控美联储,三次救中国!一句话改写全球经济史

混沌录
2026-06-25 21:47:15
山东高考成绩公布,600 分以上 30192 人

山东高考成绩公布,600 分以上 30192 人

王姐懒人家常菜
2026-06-26 08:01:52
德国爆冷三大影响!被逆转成习惯,三主力遭炮轰,只为做掉韩国?

德国爆冷三大影响!被逆转成习惯,三主力遭炮轰,只为做掉韩国?

等等talk
2026-06-26 07:32:10
65岁陈冲回上海独居养老,撕开中老年体面生活,原来还能这么活

65岁陈冲回上海独居养老,撕开中老年体面生活,原来还能这么活

离离言几许
2026-06-20 20:36:11
屏蔽生放弃清北选港大牙科:168万奖学金背后,是专业主义的胜利?

屏蔽生放弃清北选港大牙科:168万奖学金背后,是专业主义的胜利?

户外阿毽
2026-06-26 02:52:46
黄金暴跌22%!六大行集体看空:你以为在跌,其实它在等信用爆雷

黄金暴跌22%!六大行集体看空:你以为在跌,其实它在等信用爆雷

别人都叫我阿腈
2026-06-25 15:48:56
太提气了!走出人民大会堂的那一刻,他的手势说明一切

太提气了!走出人民大会堂的那一刻,他的手势说明一切

小娱乐悠悠
2026-05-15 09:20:09
中国一定要警惕!越南正因为鲜为人知的原因面临分裂风险

中国一定要警惕!越南正因为鲜为人知的原因面临分裂风险

怪味历史连连看
2026-06-25 16:45:10
中业岛被占数十载,台当局束手无策?大陆强势出手:一寸不让!

中业岛被占数十载,台当局束手无策?大陆强势出手:一寸不让!

米师傅安装
2026-06-20 01:04:16
安妮斯顿同款Oura戒指,直降近半价,仅215美元

安妮斯顿同款Oura戒指,直降近半价,仅215美元

时光慢旅人
2026-06-25 01:21:04
张韶涵演唱会上的丝袜,应该借给谢娜穿穿,差距一目了然!

张韶涵演唱会上的丝袜,应该借给谢娜穿穿,差距一目了然!

木子爱娱乐大号
2026-06-22 14:53:51
淘汰赛战巴西 日本队众生相:森保一和助手微笑击掌 伊东纯也摇头

淘汰赛战巴西 日本队众生相:森保一和助手微笑击掌 伊东纯也摇头

狍子歪解体坛
2026-06-26 09:05:38
重案实录——超雄综合体 江苏淮安马氏兄弟暴力袭警案纪实

重案实录——超雄综合体 江苏淮安马氏兄弟暴力袭警案纪实

重案实录
2026-06-25 08:44:44
PS商店显示《GTA6》竟在中国、俄罗斯等国家被禁

PS商店显示《GTA6》竟在中国、俄罗斯等国家被禁

3DM游戏
2026-06-25 10:39:05
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
林生斌现状:定居澳洲富人区,如今儿女双全,妻子是之前公司员工

林生斌现状:定居澳洲富人区,如今儿女双全,妻子是之前公司员工

离离言几许
2026-06-19 17:17:57
在稀土领域,日本已成了向隅而泣的可怜虫

在稀土领域,日本已成了向隅而泣的可怜虫

观察者网
2026-06-25 09:02:18
2026-06-26 10:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13360文章数 142682关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

旅游
健康
教育
时尚
军事航空

旅游要闻

重庆最孤独的县城,藏在大巴山深处,距主城400公里街景很繁华

医生如何快速诊断脑梗和脑出血?

教育要闻

日本留学新趋势:国际学生政策正在“去英语化”?

本科毕业后,我花15万上大专

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版