网易首页 > 网易号 > 正文 申请入驻

机器人长800个心眼?阿里达摩院开源具身新大脑,硅谷又坐不住了

0
分享至

编辑:好困 桃子

【新智元导读】硅谷还在苦等真机数据,中国队已先一步交卷。RynnBrain大脑横空出世,通用具身智能时刻更近了。

2026年,具身智能的牌桌上早已是短兵相接。

几乎每周,都有重磅炸弹被扔进场内:

  • 波士顿动力全新Atlas令人惊艳的「360度转头杀」还在余音绕梁;
  • 1X就祭出了1XWM「世界模型」,让NEO在脑内学会模拟现实,把视频生成内化为肌肉记忆;
  • 而Figure更是通过下一代神经网络Helix 02让Figure 03实现了「全身协同运动」,行走、操作与平衡从此无缝融合。







在这一堆「秀肌肉」的神仙打架中,到底谁才配得上「最强大脑」?

现实中,干活干一半被打断,再回头很容易就会忘记「刚才干哪了」。

比如,这个机器人正忙着给桌上的食物分类,半路突然杀出一个「请帮我拿个面包」的指令。



只见它立刻「挂起」手头动作,优先把面包递给人类。



完事后,凭借「任务栈记忆」瞬间回神,无缝衔接,转头继续处理剩下的水果。



更有意思的是,哪怕你当着它的面把盘子移走,它也能实时调整路径,坚持「物归原位」。



如果遇到更棘手的情况呢?

让机器人在一堆「硬菜」面前,找出低卡的那一个。

这里,不仅考验了对常识的理解,还需要用到「中文OCR」能力。

机器人一眼扫过配料表和文字标签,大脑迅速计算,立马就能精准找出最合适的那一个。



难度继续升级。

下面是一个典型的「逼死强迫症」题目:三个面包两个盘,怎么分?

有趣的是,机器人凭借着「空间规划」与「长程规划」的能力,给出了一个绝妙的解法——「叠罗汉」。



最后,就连机器人版「三仙归洞」也来了!

把一瓶喝过的矿泉水,在它的面前疯狂调换位置。

即便在如此眼花缭乱的变换中,机器人也能死死锁住目标。

这背后,离不开强大的「物体记忆」与「复杂视频理解」能力。





具身智能之战,直面物理世界

放眼硅谷,目前主流有三条技术路线在角力。

第一条,是VLA(视觉-语言-动作)端到端流派。

Figure、π、Covariant押注的这条路最为火热,主张用一个模型从感知直通动作。

但这套逻辑有个硬伤:

它极其依赖昂贵的真机数据,一旦遇到没见过的场景,泛化能力直接断崖下跌。





第二条,是「世界模型」流派。

它主张从像素级模拟物理世界,让机器人在虚拟环境中大量试错。

在英伟达杰出科学家Jim Fan看来,2026年将是「大世界模型」(LWM)为机器人乃至多模态AI奠定基础的真正元年。



第三个流派,则选择了另一种思路:

基于本身就具有泛化能力的VLM(视觉-语言模型),进一步造出通向物理世界的「具身大脑」。

它不强求一个模型解决所有问题,而是采用了仿生学的「大小脑」分层架构:

  • 大脑:引入时空记忆和物理推理,负责「运筹帷幄」;
  • 小脑:专注于具体的「冲锋陷阵」。

这种架构巧妙利用了VLM海量数据的泛化优势,同时通过「空间定位」让思考过程落地,解决了以往模型只会在脑子里「空想」的幻觉问题。

开篇一些惊艳演示,正是来自这第三条路线的最新破局者——阿里达摩院刚刚亮出的RynnBrain

它让机器人首次拥有了时空记忆物理空间推理能力。



实测数据显示,得益于这种分层架构的优势:

  • RynnBrain在16项具身评测基准中,全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型,部分核心能力提升幅度超30%。



三条路线并非互斥,而是从不同维度逼近真相。

在这场通往通用机器人的马拉松里,最优解虽未落定,但阿里达摩院已在无人区迈出了关键一步。



核心技术解密

答案没有捷径。

要造「大脑」,得先解决一个更基础、却也更棘手的问题:如何让机器真正「看懂」物理世界?



前传:为大脑装上「火眼金睛」

现有的大模型虽然能用诗意的语言描述图像,却对物理世界中物体的材质(是软是硬?)、功能(能坐还是能开?)、真实尺度(多高多宽?)完全「摸不透」。

为此,达摩院与浙大团队打造了一双极致的「眼睛」——RynnEC

RynnEC在基础VLM之上,创新性地引入了专门的区域编码器(Region Encoder)和基于SAM2的掩码解码器(Mask Decoder)。



这种设计让模型不再局限于笼统地「看图说话」,而是具备了区域级别的视频交互能力,能够精准锁定局部物体。

为了训练这双「眼睛」,团队设计了一套如同人类认知课程般的四阶段训练范式,从最基础的掩码对齐开始,逐步注入颜色、材质等物体属性知识,再进阶到距离、方位等空间推理,最后通过指代分割防止遗忘。

经过这套严苛课程的「特训」,RynnEC不仅能回答关于物体属性的复杂问题,还能在视频流中实时生成分割掩码,真正理解了物理世界的几何与语义。

RynnBrain正是继承了RynnEC这双「火眼金睛」的数据和能力,并在此基础上长出了负责逻辑推理和时空规划的「大脑」。



以小博大:高效的MoE架构

在拥有了极致的感知后,RynnBrain在模型架构上选择了「效率至上」。

它基于Qwen3-VL底座,使用自研RynnScale架构,让Dense模型和MOE模型训练加速两倍

  • 输入端支持任意分辨率图片、多视角图像和视频;
  • 输出端则统一了区域、轨迹、点集、夹爪位姿和文本等多种具身相关模态。

尤其是,MoE架构的RynnBrain,仅用3B推理激活参数,性能全面超越Pelican-VL(72B)巨型模型。



这种设计让机器人既拥有大模型的智商,又具备端侧部署所需的快速响应能力。



攻克顽疾:解决物理幻觉与健忘

针对传统大模型在物理世界中「看不准」和「记不住」的痛点,RynnBrain引入了两项关键技术:

• 全局时空回溯

具身智能领域中,很多机器人是「鱼的记忆」,看一眼忘一眼。

举个栗子,让机器人去厨房拿可乐,结果刚转个身,就忘了厨房门在哪,或者忘了刚才看见的可乐在桌子左边还是右边。

为此,RynnBrain引入了「全局时空记忆」。

这种能力让机器人能够在完整的历史记忆中建立起涵盖空间、位置、事件、轨迹等多维度的三维认知表征,而不仅仅是简单地批处理历史图像。

通过这种深度的时空建模,模型能够在当前视野受限的情况下,精准定位历史画面中出现过的物体或目标区域。

甚至在复杂的动态环境中,它还能基于历史信息预测运动轨迹,赋予了机器人一种类似「心眼」的能力,即便转过身去,依然能在脑海中清晰地构建出周围环境的完整地图,从而实现可靠的全局回溯。

• 文本与空间交错推理

大模型最爱「一本正经地胡说八道」。在物理世界,这种幻觉是致命的。

RynnBrain抛弃了纯文本推理范式,采用了一种「文本与空间定位交错」的策略。

简单说就是,「边说边指」。

模型在输出推理文本的过程中,必须将提到的物体或区域与视频流中的具体像素位置进行强制绑定(Grounding)。

如果模型无法在物理空间中指出它在谈论什么,它就不会生成相应的文本。

这种「言必有据」的机制充当了一个严厉的考官,迫使推理过程紧密扎根于物理环境,从而极大地抑制了纯文本模型中常见的物理幻觉问题,确保了每一个指令都是可执行、可验证的。



训练策略:全真数据的「暴力美学」

在训练数据上,达摩院做了一个反直觉的决定:全部使用真实数据。

为此,RynnBrain构建了庞大的数据工程,在预训练阶段,采用了2000万高质量数据对。

具体数据包括以下四大方面:

  • 通用多模态数据:复用自研Video-Llama 3数据,并融合LLaVA-OV-SI、LLaVA-Video等多个开源视频问答数据。
  • 具身认知数据:复用自研RynnEC训练数据,并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空间理解和动态计数能力,以及自生成100万自我为中心的OCR问答数据。
  • 具身定位数据:五大定位任务分别标注大量视频和图像数据,分别为:物体定位、区域定位、操作点定位、轨迹定位和夹爪位姿定位。
  • 规划数据:导航和操作两类数据,前者使用R2R和RxR数据和ScaleVLN的开源数据,后者数据来自OpenX-Embodiment和AGIBot。

视觉数据全是真实的,但标签怎么办?

在这里,达摩院采用了「AI生成+人工清洗」的策略——

利用Gemini 2.5 Pro生成初步推理链,GPT-4o-mini进行实体分类,最后由人工对关键物体和区域进行画框精标。

值得注意的是,所有定位结果都会以结构化格式area> : ...; (coordinates)融入推理文本,从而实现语言与空间的对齐。

这种方法既保证了视觉的「全真」,又保证了文本逻辑的「高智商」。



后训练:能力的「无限扩展」

作为基础底座,在后训练阶段,RynnBrain展现了极强的泛化与下游任务适配能力。

在导航后训练中,团队基于导航SOTA模型StreamVLN的训练数据,微调了RynnBrain模型。

在架构完全不变的情况下,RynnBrain-Nav导航成功率比原来SOTA提升了2%-3%。

相较于Qwen3-VL,在相同的数据下微调,RynnBrain作为基础模型可以让导航能力额外提升5%。

这组数据有力证明了,RynnBrain在具身相关任务中预训练的作用巨大,拉高了后续微调模型的上限。



另外,在操作规划任务中,仅用几百条数据微调,RynnBrain-Plan-30B(A3B)便在域内和域外的任务上全面超越Gemini 3 Pro。

要知道,规划任务通常要求模型,具备极强的预测能力和场景解析力。

这恰恰充分体现了,论文中「文本与定位交错」规划方式,更适用于复杂多变的物理世界。





达摩院的下一步:从大脑到OS

具身智能的赛道上,从不缺重量级玩家。但真正的变量,往往来自沉默的深耕者。

在外界看来,达摩院似乎是一位新晋选手。

但实际上,早在2023年,这支团队便已在具身智能的深水区低调潜行,并构建起一套完整的技术版图。

达摩院的野心,远不止于模型。

去年8月,达摩院首度亮剑,开源了具身智能「三大件」:

自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ,以及机器人上下文协议 RynnRCP 。



其中,RynnRCP协议的战略意义尤为关键。

它之于具身智能,恰如MCP之于AI智能体——在异构的数据、模型与机器人本体之间,构筑了一座无缝连接的桥梁。

目前,RynnRCP已成功适配Pi0、GR00T N1.5等热门模型及SO-100、SO-101等多款机械臂,生态朋友圈正在极速扩张。



从物理AI到机器人OS

放眼全球,从科技巨头到独角兽,都在涌入「物理AI」这一新战场。

老黄更是断言,AI与机器人的结合正在酝酿数万亿美金的机遇,是无可争议的下一个前沿。



在这一共识下,达摩院的路径异常清晰:先造大脑,再造OS。

一个能感知、推理、决策的具身大脑,是机器走向自主化的前提;而对硬件的精密控制、平台级的架构支撑、上下游的生态整合,则是让大脑落地的躯干。

但这只是铺垫,达摩院更长远的目标,是打造一个通用的「机器人OS」。

正如PC时代的Windows、移动时代的Android,具身智能亟需一个统一的底层系统,来承载算法与硬件的复杂交互。

从昔日的「火眼金睛」,到如今的「具身大脑」,再到未来的「机器人OS」。

属于达摩院的征途,才刚刚拉开序幕。

One More Thing

这一次,达摩院继续秉持极致开源的理念,带来了重磅更新:

  • 全系列模型开源

包含2B、8B、30B三种参数规模的RynnBrain基础模型,以及针对特定场景的后训练专有模型RynnBrain-Nav(导航)与RynnBrain-Plan-30B(规划)等共计7个。

  • 全新评测基准RynnBrain-Bench

针对具身智能领域在「时空细粒度」任务上的空白,RynnBrain-Bench基准涵盖物体认知、空间认知、物体定位、具身点预测四大关键维度,重点考察模型对记忆视频序列的细粒度理解及精准时空定位能力。



  • 全栈代码开源

完整的推理与训练代码,即刻可用。

GitHub:

https://github.com/alibaba-damo-academy/RynnBrain

Hugging Face:

https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

项目主页:

https://alibaba-damo-academy.github.io/RynnBrain.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女生这个手势什么意思?

女生这个手势什么意思?

果粉之家
2026-02-06 11:33:55
陈芋汐惊讶:全红婵高调官宣喜讯,给运动员们上了生动一课

陈芋汐惊讶:全红婵高调官宣喜讯,给运动员们上了生动一课

鱼语昱雨轩
2026-02-10 17:12:01
54岁汪峰形象大变,带醒醒三亚度假,近照发量稀少已有谢顶迹象

54岁汪峰形象大变,带醒醒三亚度假,近照发量稀少已有谢顶迹象

无处遁形
2026-02-09 23:01:06
出口突破832万辆,究竟是谁在狂买中国车?

出口突破832万辆,究竟是谁在狂买中国车?

牲产队
2026-02-05 19:16:07
“瑶一瑶小肉包”粉丝跌破2000万

“瑶一瑶小肉包”粉丝跌破2000万

黄河新闻网吕梁频道
2026-02-09 11:46:15
很多普通人的存款都将归零

很多普通人的存款都将归零

何圣君
2026-01-02 20:58:18
还怎么过年?广州某公司突发通知:年后停发绩效!

还怎么过年?广州某公司突发通知:年后停发绩效!

黯泉
2026-02-10 21:53:07
“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,现如今怎样

“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,现如今怎样

混沌录
2025-12-27 15:23:10
徐彬首秀落幕,英国权威媒体竟只给出如此成长天花板!

徐彬首秀落幕,英国权威媒体竟只给出如此成长天花板!

叶赫那拉菲菲
2026-02-11 02:03:12
再见,阿森纳!7000万攻击手转投AC米兰!1.1亿“打包”米兰双星

再见,阿森纳!7000万攻击手转投AC米兰!1.1亿“打包”米兰双星

头狼追球
2026-02-10 14:02:11
冲上热搜!华晨宇演唱会现场官宣:已拿下三块地;当地回应

冲上热搜!华晨宇演唱会现场官宣:已拿下三块地;当地回应

每日经济新闻
2026-02-10 01:02:53
毛主席飞机晚点,刚降落,刘亚楼就冲机长大喊:你怎么不颠他几下

毛主席飞机晚点,刚降落,刘亚楼就冲机长大喊:你怎么不颠他几下

飞哥谈史
2026-02-11 07:10:13
“好良言难劝该死的鬼”!网友一语道破真相!

“好良言难劝该死的鬼”!网友一语道破真相!

特约前排观众
2026-02-10 00:05:07
杭州再出黑马,中国千亿市场被炸穿!AI「杀死」会计,达摩院大佬出手了

杭州再出黑马,中国千亿市场被炸穿!AI「杀死」会计,达摩院大佬出手了

新智元
2026-02-09 16:30:23
乌专家:中国“榨干”苏联遗产,我们图纸都没看懂,他们造出2.0

乌专家:中国“榨干”苏联遗产,我们图纸都没看懂,他们造出2.0

混沌录
2025-12-27 21:33:28
身边毁三观的八卦,太炸裂了!不准备两斤瓜子出不来!

身边毁三观的八卦,太炸裂了!不准备两斤瓜子出不来!

另子维爱读史
2026-01-24 20:54:02
CBA三分大赛9人名单:前三分王胡明轩陈林坚领衔 原帅放弃冲3连冠

CBA三分大赛9人名单:前三分王胡明轩陈林坚领衔 原帅放弃冲3连冠

醉卧浮生
2026-02-10 19:34:55
心酸!佳能深圳工厂搬离,引起连锁反应:走了一家,倒下一片…

心酸!佳能深圳工厂搬离,引起连锁反应:走了一家,倒下一片…

川渝视觉
2026-02-09 15:54:17
已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

夜深爱杂谈
2026-02-09 18:16:04
著名超硬材料专家王光祖逝世,享年93岁

著名超硬材料专家王光祖逝世,享年93岁

界面新闻
2026-02-10 23:50:09
2026-02-11 07:48:49
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
297文章数 20611关注度
往期回顾 全部

科技要闻

李斌喊出500万辆年销!定下三大核心任务

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

章子怡和马丽争影后 金像奖提名太精彩

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

房产
艺术
家居
亲子
军事航空

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

艺术要闻

投资百亿,南京416米超高层建筑落成!

家居要闻

宁静港湾 灵动与诗意

亲子要闻

在家用脑机接口,小孩打游戏可干预多动症

军事要闻

以军持续在约旦河西岸多地发动突袭

无障碍浏览 进入关怀版