想让机器人春晚包饺子？阿里达摩院：别急，先把「大脑」优化一下|推理|真实世界

分享至

编辑｜张倩

2026 年，那么多机器人上春晚，能给大家表演个包饺子吗？相信这是很多人会好奇的一个问题。

但根据最近的彩排报道，这个可能性不大，机器人更有可能被设计为托着托盘呈上饺子。

其实业内人士都知道，如果不靠编程或摇操，让机器人包饺子这事儿远比移动、导航要复杂，还涉及到「饺子皮」这种堪称机器人图灵测试的柔性物体，没有一个足够聪明的「大脑」肯定是做不到的。这也是为什么，在过去的一年，越来越多的研究力量和资金开始涌向「大脑」

阿里达摩院最近的一项工作 ——RynnBrain也瞄准了这一方向。不过和一些表演叠衣服、做早餐的研究不同，他们关注的问题还要更底层一些：如果机器人在做家务的时候被打断，临时去门口接收快递，它还能不能回来接着刷碗？如果机器人被要求完成一件需要借助很多工具的任务，它制定的计划会不会包含手头压根没有的工具？

在关于机器人的各种宏大叙事里，这些问题可能没有那么起眼，甚至连相关的 benchmark 都是缺失的，但却是机器人走出实验室必须迈过的门槛。在 RynnBrain 的构建中，达摩院具身智能团队选择从底层出发，将时空记忆物理空间推理直接训进模型里，并且达到了不错的效果，在 16 项具身的 Benchmark 上实现了 SOTA

面对「三个面包、两个盘子」的约束条件，模型能够进行空间与长程规划，推导出合理的分配方案，体现了其在受限物理条件下的规划与推理能力。

在对杂乱桌面进行分拣规划的过程中，机器人能够在任务被打断后，准确记住已完成的步骤并继续执行，展示了多任务交错下的记忆与规划能力。

达摩院还一口气开源了 RynnBrain 全系列共计 7 个模型，其中包括RynnBrain-30B-A3B。这是业界首个 MoE 具身基础模型，其只需要 3B 的推理激活参数就全面超越了当前规模最大的具身基础模型 Palican-VL-72B。使用这个模型，可以让机器人在保持最强大感知和规划能力的基础上拥有更加快速的动作响应和更加丝滑的行为模式。目前，包括模型权重、评测基准及完整训推代码在内的全套资源均已向社区开放。

Github链接: https://github.com/alibaba-damo-academy/RynnBrain
HuggingFace链接: https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
项目主页：https://alibaba-damo-academy.github.io/RynnBrain.github.io/

把大模型塞进机器人？

这事儿真没那么简单

关于具身大脑，业界流传着一个有趣的调侃 ——「把 DeepSeek 等大模型放进宇树不就行了」。当然，做过的人都知道这完全行不通。

本质上，在 2D 世界数据上训练出的模型，在走进物理世界的时候面临的是一个完全不同的环境

还是以机器人包饺子任务为例，在原来的 2D 世界里，顶尖的 VLM（视觉语言模型）早就能够看懂包饺子的完整流程，模型的任务本质上是对静态画面做出理解，不需要与环境交互。而在真实的年夜饭厨房 —— 那个物品散落、空间逼仄的高熵战场 —— 一个仅凭 VLM 语言、视觉经验行事的机器人往往会显得手足无措：比如机器人刚将饺子皮擀好、放上馅料、正准备捏合，但不小心碰倒了旁边的调料瓶，想要拿抹布擦拭但眼前并没有抹布，也想不起来放在哪儿，于是就卡住了。再比如，它「看到」桌上有馅料，便自信地规划出「用挖馅勺取馅」的动作，却对「挖馅勺没有被拿上桌」这一关键缺失视而不见，最终导致任务失败。

这些场景尖锐地揭示出当前通用大模型的局限：它们虽「见多识广」，但在物理世界里往往是「纸上谈兵」，缺乏连续的三维空间感，不懂真实的物理交互逻辑，更难以避免因脱离物理约束而产生的幻觉式规划。

这正是达摩院推出 RynnBrain 所要解决的核心问题。他们的思路是通过系统性地引入时空记忆、物理空间推理等能力，将这个原本「飘在云端」的认知大脑，强行拽回物理世界。

从 RynnEC 到 RynnBrain

让大模型长出「物理直觉」

让大模型扎根物理世界不是一蹴而就的。在 RynnBrain 之前，达摩院还做过一项奠基性的研究 ——RynnEC。

简单来说，RynnEC 就像给大模型赋予一双「眼睛」。它可以精确回答关于物体（属性、数量、功能、分割等）或空间（以自我为中心的世界感知 + 以世界为中心的尺度感知）的问题。比如在执行「将平板电脑放到书架上」这个任务时，它会先思考「电脑有多宽，能不能放书架上不掉下来？」；而在伸手拿酱油之前，它会先算一下自己和酱油瓶之间的距离，判断原地不动能不能够得着。

图源：RynnEC 论文。链接：https://arxiv.org/pdf/2508.14160

这双「眼睛」所带来的细粒度认知输入，是连接高层规划与底层控制的关键桥梁。而 RynnBrain 不仅完整地继承了这些能力，还扩展出了多样化的时空记忆以及物理空间推理能力。

先说时空记忆。这一能力的引入，直指当前具身大模型的「视野」痛点。现有的大脑模型往往只能解决当前视野（图片）内的定位任务，一旦需要寻找的目标物体或关键点处于视野之外（比如前面提到的「抹布」），模型便无能为力。尽管业界存在一种通用的「暴力解法」，也就是把所有的历史图片重新过一遍模型来寻找目标，但在达摩院看来，这种方式割裂了时空，忽略了具身场景本质上是一个连续的、整体的三维世界。

因此，RynnBrain 选择了一条更符合认知的路径：它利用历史记忆来帮助模型构建起一个更加完整的三维认知。这意味着，机器人的决策与理解不再受限于眼前的瞬间场景，而是能够真正基于一个完备的三维世界模型进行全局考量。

在复杂的视频变化与干扰下，模型能够持续追踪并识别被使用过的矿泉水，展示了对动态场景中物体的长期记忆与理解能力。

机器人在主要物体被移动后，仍能保持对其空间位置的记忆，并将物体准确放回原处，体现了稳定的物体记忆与空间记忆能力。

那么，这种「类人」的全局时空回溯是如何实现的？其背后的核心在于涵盖空间、位置、事件、轨迹等多维度信息的「统一表征」。

RynnBrain 拥有认知、定位、推理、规划等多种能力

在复杂的具身交互中，机器人所面对的信息是高度异构的。传统的模型往往难以兼容这些异构的信息，而 RynnBrain 的突破在于，它构建了一套统一的框架，将这些信息全部统一映射到模型的输出空间里。这意味着，模型在「脑海」里处理的不再是割裂的视觉切片，而是将时间维度、空间坐标与语义理解融为一体，从而在底层逻辑上实现了对物理世界的精准「拿捏」。

RynnBrain 模型架构图。

接下来看物理空间推理能力。在传统的 VLM 中，推理主要发生在语言层面，并未被强制与具体的空间位置或物理状态绑定。模型可能会生成看似完美的计划，比如前面提到的「用挖馅勺取馅」，但实际上，它眼前并没有挖馅勺，也不知道这个工具在哪里。这种「语义与空间解耦」的模式，是导致机器人产生「物理幻觉」的根源。于是，指令发出去了，任务却完不成。

为了消除这种割裂，RynnBrain 采用了一种「文本与空间定位交错」的推理策略。简单来说，就是要求模型「边说边指」。在 RynnBrain 生成推理文本的过程中，每当涉及到具体的物理对象或位置时，它必须同步预测出对应的空间坐标或区域掩码。这种强制性的约束，迫使模型在生成「拿起挖馅勺」这句话的同时，必须在像素级或三维坐标系中精准地标出那个挖馅勺。

通过这种机制，RynnBrain 将抽象的语言逻辑与具象的物理环境强力锁定。这种扎根于物理世界的推理方式，极大地降低了任务执行中的不确定性，让每一个决策 Token 都有据可依。

从 SOTA 刷榜到下游实战

一个「六边形基座」的诞生

说了这么多，RynnBrain 到底表现如何？其实，如果只是拿现有的 Benchmark 去测，RynnBrain 的部分能力是很难测出来的，如时空定位、操作点识别等。目前的开源评测基准，普遍缺少对这些细粒度信息理解能力与时空定位能力的评估。

为了填补这一空白，达摩院推出了一个名叫 RynnBrain Bench 的新基准。这个基准涵盖物体认知、空间认知、物体定位、具身点预测四大维度，共计 20 项具身相关任务。它和现有的其他 benchmark 一起，对模型能力提出了综合考验。

在这套严苛的「试卷」面前，RynnBrain 首先展现出了全面且扎实的基础模型能力。其 8B 版本不仅在具身认知与定位任务上全面领先于 Gemini Robotics ER 1.5、Mimo-Embodied、RoboBrain 2.0、Pelican-VL、Cosmos-reason 2 等业内最先进的模型，在许多细分能力上甚至实现了 30% 以上的性能飞跃

RynnBrain 在 16 项具身评测上实现 SOTA

更难得的是，RynnBrain 在泛化性方面并没有明显的损失。我们知道，许多专门为机器人任务训练的「具身大脑」模型，容易过拟合到特定任务上，导致其丧失作为通用大模型原有的强大能力（比如文档理解、文本推理等）。而 RynnBrain 在取得具身任务 SOTA 的同时，继承了基座模型（Qwen3-VL）通用视觉能力。

模型能够理解用户的饮食需求，结合常识判断与中文 OCR 识别，从多个带文字标签的物品中筛选出符合条件的选项。

此外，其开源的 MOE 版本（RynnBrain-30B-A3B）让机器人在保持最强感知与规划能力的同时拥有更快的响应速度。它仅需 3B 的推理激活参数，就在各项指标上击败了当前规模最大的具身基础模型 Pelican-VL-72B，真正实现了以小博大。

作为一个旨在赋能下游任务的基座，RynnBrain 还在后训练阶段爆发出了巨大的潜力

实验数据表明，其预训练成果对下游任务有显著的加持作用：在导航任务中，仅作为基座进行微调（RynnBrain-Nav），就能比使用 Qwen3-VL 的模型能力提升 5%，且在不修改架构的情况下，导航成功率比当前的 SOTA 模型 StreamVLN 高出 2%-3%。

而在操作规划方面，RynnBrain 展现了惊人的数据效率，仅需几百条样本微调，其 RynnBrain-Plan 模型就能具备强大的长周期规划能力，无论是在域内还是域外任务上均全面超越了 Gemini 3 Pro。这种「一点就通」的特质，充分验证了其独创的「文本与定位交错」推理方式比传统模式更适应复杂多变的物理世界，其强泛化能力的保留使其能够更快地迁移到所需场景。

至此，RynnBrain 不仅具备了系统性的认知架构，更补全了从「理解」到「行动」的关键环节，成为首个支持移动操作的具身基础模型。

与其押注路线

不如先给行业「打地基」

关于机器人「大脑」该怎么做，业内其实一直没有标准答案。达摩院的研究人员在交流中提到，当前的探索大致分成两种思路：一种从动作出发，直接学习如何操作真实世界，这条路发展出了 VLA 模型，但问题也很现实 —— 高质量数据难找，泛化始终受限；另一种则试图利用大模型本就拥有的泛化能力，希望先让模型看懂世界，再谈行动，但如何把这种理解准确对齐到真实、连续的物理空间，依然是绕不开的难点。

在这种背景下，达摩院没有急着选边站，而是选择先把基础能力补齐。RynnEC 负责打好对物理世界的感知与理解，RynnBrain 则在此之上继续往时空记忆、空间推理和长程规划推进。这些基础打好之后，RynnBrain 既可以作为下游模型的「大脑」参与真实操作，也有机会通过后训练直接演进为操作基座。这些能力被开源出来，也是希望社区能在同一套底座上继续探索，而不是各自重复造轮子。

与此同时，达摩院也在并行推进以视觉为主导的 VLA 路线（如 RynnVLA），并通过 RCP 等系统级技术，把模型、数据和真实机器人连成一条完整链路，从「看见」到「决定」再到「动手」。

谈及更远的未来，达摩院透露，他们在思考一种更平台化的方案，试图在碎片化的硬件和算法生态之上，搭起一套更统一的具身智能基础设施。毕竟，要解决具身智能这道世纪难题，需要的不是某一家机构的孤军奋战，而是整个开源社区的共同进化。

文中视频链接：https://mp.weixin.qq.com/s/53UMfJL6VG-TAA4KJNv8Mg

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.