网易首页 > 网易号 > 正文 申请入驻

阿里达摩院开源具身大脑基模:转身就忘事的机器人有救了

0
分享至

来源:市场资讯

(来源:量子位)

你斥巨资买回家的全能家务机器人,正在执行“把药片拿给奶奶”的任务。

它在大脑里推理得有条有理:“奶奶在沙发上,药在茶几,我要先去茶几那……”

结果站在茶几前的它,对着上面的半瓶可乐陷入了沉思。

短暂的停顿之后,机械臂伸出,抓起了遥控器。

恭喜你!你家的具身机器人翻车了。

其实,“一旦被扔进物理世界做任务,智商立刻欠费”是具身智能机器人当下的尴尬现状。

因为缺乏对三维物理空间的感知,模型无法像人类一样建立空间坐标系,无法记住刚刚转身后背对着的物体,也无法判断目标是否仍然存在于空间中。

这种“脑子学会了,手跟不上”的现象,本质上是因为现有的大模型大多是“缸中之脑”,它们只见过二维的图片和文本,从未真正理解过物理世界的深度与连续性。

现在,阿里达摩院出手了。

今天,达摩院开源了RynnBrain具身大脑基础模型,从2B到30B,全系列共计7个。

这是业界首个拥有时空记忆的具身大脑基础模型,其最大的特点是给具身机器人装上了一个能理解“时”与“空”的大脑:它不仅能看懂现在的画面,还能记住过去的轨迹,甚至预判未来的动作。

在20项具身Benchmark上,RynnBrain全面超越了英伟达的Cosmos-reason2和谷歌的Gemini Robotics ER 1.5等顶尖模型,轻松实现16个SOTA。


达摩院这次算是开了个好头。

技术探索一旦有了苗头,就不怕等不来雪球效应,到了全能家务机器人真正能进咱家门的时候……应该就不会翻车了吧?

RynnBrain的核心优势可以用“小而美”形容。

RynnBrain-30B-A3B作为首个MoE架构的具身基础模型,展现了极致的效率美学:

仅需3B的推理激活参数,性能却超越了72B规模的Pelican-VL(当前规模最大的具身基础模型)。

对于机器人这种对端侧算力、功耗极其敏感的设备来说,激活参数越小,意味着响应速度越快,硬件成本越低,落地的可能性就越大。


达摩院表示,RynnBrain是在Qwen3-VL的基础上进行训练。

为了解决大模型训练慢、成本高的问题,达摩院团队在RynnBrain中使用了自研的RynnScale架构。

这套架构对Dense模型和MoE模型都进行了深度的训练速度优化,使得在同等计算资源下,训练速度直接提升至200%。

所以RynnBrain不仅跑得快,迭代进化的速度也比别人快,单位时间内可完成更多实验轮次。


当然,模型好不好,数据是关键。

为了训练这个大脑,达摩院准备了超过2000万对的高质量语料。这些数据经过了精心的设计和清洗。

首先,团队复用了自研Video-Llama 3视频大模型的通用多模态训练数据,并融合了LLaVA-OV-SI、LLaVA-Video等开源视频问答数据,打好了底座。

其次,为了增强具身认知,他们引入了物体认知、空间认知和计数相关的数据。

这里有一个很有意思的细节:团队自己生成了100万对“自我为中心”的OCR问答数据。

为什么要强调“自我为中心”?

因为机器人眼中看到的世界是随着移动不断晃动的画面,是近大远小的透视。

加入OCR数据能让机器人看懂药瓶上的标签、门牌上的数字,对解决实际任务很有帮助。


在输入输出端,RynnBrain也做到了极致的灵活。

输入端,它可以接受任意分辨率的图片、多图和视频输入。

无论是高清的摄像头画面,还是模糊的监控截图,它都能处理——这满足了用户在不同场景、不同硬件条件下的视觉输入需求。

输出端,它有很强的多模态输出能力。

RynnBrain可以输出区域、轨迹、点集、夹爪位姿、文本等多种具身相关的模态。

它不仅能告诉你“那个苹果在桌子上”,还能直接告诉机械臂“把爪子移动到坐标(x,y,z),以30度的角度抓取”,为后续导航、规划与操作任务提供统一的认知接口。

这些设计共同构成了RynnBrain作为“具身大脑”的基本形态。

回到我们开头假设的场景,一个问题摆在眼前:为什么现有的VLM(视觉语言模型)在做具身大脑时经常翻车?

核心原因是它们缺乏对物理世界的深刻理解。

它们能识别图片里的猫,但不知道这只猫在三维空间里的位置,更不知道当你转身后,家里的小猫还在不在猫窝里(此处很难不发出喵喵叫的声音.mp3)。


达摩院具身智能实验室的相关研究人员告诉量子位,之所以把RynnBrain定位为“具身基础模型”,是因为它针对性地提出了三个相互耦合的关键能力点。

第一,它拥有了“时空记忆”。

传统的模型往往是“健忘”的,处理视频时也是一帧一帧地看,看完了就忘。

而RynnBrain能够在其完整的历史记忆中定位物体、目标区域,甚至预测运动轨迹。

这就赋予了机器人一种“全局时空回溯能力”。

想象一下,机器人在厨房里忙活。它先在水槽边洗了菜,然后转身去冰箱拿肉。在普通模型眼里,转身的那一刻,水槽和菜就“消失”了。

但对于RynnBrain来说,它的大脑里构建了一个涵盖空间、位置、事件、轨迹的多维度表征。

它清楚地记得水槽在身后的哪个方位,刚才洗好的菜放在了水槽的左边还是右边。

这种能力对于长程任务至关重要。

比如“把药拿给奶奶”这个任务,中间可能被打断,可能需要绕过障碍物。

RynnBrain拥有时空记忆,所以任务中途哪怕发生插曲,也都还能准确地找回之前的任务断点,继续执行。

第二,它掌握了“物理空间推理”。

RynnBrain采用了一种全新的“文本与空间定位交错”的推理策略。

推理过程中,模型不仅生成语言判断,还会同步给出对应的空间指向信息。

它的推理过程是这样的:“首先走向[桌子](对应视频帧中的区域坐标),然后伸出手对准[苹果](对应物体的边界框),避开旁边的[水杯](对应障碍物的点集)……”

这种推理方式,就像是人类在指挥别人干活时,一边说话一边用手指指点点,具身模型理解指令时就更简单、更轻松。

推理与定位被强制绑定,推理结果天然受到物理世界约束,能够大幅降低具身任务中常见的幻觉问题。

在具体实现上,达摩院围绕计数、物体定位、操作点定位、区域定位和轨迹预测等任务构建了系统化的数据与评测流程。

尤其在计数任务中,强调“先定位再计数”,显著提升了复杂场景下的稳定性。

第三,它展现了良好的可拓展性。

RynnBrain不仅仅是一个好用的模型,更是一个强大的基座。

达摩院团队在RynnBrain基础模型上,微调了视觉语言导航和精准操作规划模型,结果令人惊喜。


在操作规划任务中,仅使用几百条数据微调后,RynnBrain-Plan-30B(A3B)就在域内和域外的任务上全面超越了Gemini 3 Pro。


咱就是说,RynnBrain在预训练阶段打下的底子确实非常厚实。

具身智能发展至今,仍面临数字世界(二维、离散)与物理世界(三维、高熵)之间的巨大断层。

为了跨越这个断层,业界目前主要在探索两条路径。

达摩院团队透露,他们从第一性原理、泛化性角度以及工程化实践三个维度出发,深入思考后,倾向于采用“大小脑分层架构”。

以RynnBrain为代表的“大脑”负责长程规划、场景理解与时空记忆;执行层“小脑”则专注电机控制与动作执行。

这一架构在理论上更有利于泛化,在工程上也更便于模块化迭代。

这套架构的加持下,面对“把3个面包装到2个盘子里”这种任务,拥有长程规划和空间规划能力的具身机器人就有自己的机智解法。

虽然项目作者直言两种路线目前尚未收敛,也难言好坏优劣之分,但RynnBrain的出现,首次为这种分层架构提供了可直接落地的大脑层实现。

说到这儿,大家可以问那个问题了:开源不?

开,而且是全方面开。


此次达摩院不仅开源了RynnBrain模型,还配套开放了完整的推理训练代码、以及包含22项细粒度指标的全新评测基准RynnBrain-Bench。

该测试涵盖物体认知、空间认知、物体定位及具身点预测四大维度,侧重考察模型对视频序列的理解与时空定位能力。


通过开源这一大脑底座,开发者能直接在公认的基础设施上进行二次开发,将精力转向硬件优化或垂直场景应用。

这里想就两个点展开说几句。

一来,“通过RynnBrain补齐大脑的物理常识,再通过开源把这套常识变成行业的公共基础设施”这个动作,让达摩院“想做具身生态的建设者”这事儿藏不住了。

二来,此次开源RynnBrain,发布RynnBrain-Bench等一系列动作,降低了困扰行业的三大门槛,意义深远。

第一道是研发门槛,告别重复造轮子。

以往每家公司都需自行训练模型让机器人理解“左边”或“障碍物”,现在RynnBrain将这些物理常识打包成公共基础设施,随拿随用。

第二道是系统门槛,解决认知状态不共享的顽疾。

在RynnBrain的统一表征下,导航、规划与操作模块对物理世界的理解达成一致,信息的无损流转极大地提升了系统整体效率。

第三道是协作门槛。

RynnBrain-Bench提供了一把统一的标尺,让不同团队能在相同的参照系下评估模型能力,驱动行业良性竞争。


跳出模型本身来看,达摩院在具身智能这边,路线已经相对清晰了。

用最简单易懂的话说,他们在赌。

赌具身智能的未来不是一家独大,而是百花齐放;赌通用的物理世界认知,是所有机器人走向实用的必经之路。

毕竟具身智能最终拼的,不是参数规模或Demo视觉效果。

咱们期待的是机器人有朝一日能丝滑可靠地推开通往物理世界的大门。

现在,这扇通往真实世界的大门已经被RynnBrain推开了一条缝。剩下的,就看这个被激活的生态,能在这条路上跑出怎样的惊喜了。

GitHub:

https://github.com/alibaba-damo-academy/RynnBrain

抱抱脸:

https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

项目主页:

https://alibaba-damo-academy.github.io/RynnBrain.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

另子维爱读史
2026-01-20 20:26:06
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
自作孽!央视通报南博事件后续,言辞犀利,句句直戳徐湖平心窝

自作孽!央视通报南博事件后续,言辞犀利,句句直戳徐湖平心窝

玲儿爱唱歌
2026-02-10 22:07:27
韩国队被美国队“铲飞”出局,申诉未果!韩媒:太过冤枉

韩国队被美国队“铲飞”出局,申诉未果!韩媒:太过冤枉

极目新闻
2026-02-10 23:43:26
3外援对10外援!亚冠诞生奇景,中超包揽后3名原因找到,或成常态

3外援对10外援!亚冠诞生奇景,中超包揽后3名原因找到,或成常态

球场没跑道
2026-02-10 23:52:30
菲戈:我18岁时有球员抽烟,甚至有球员在中场休息时喝酒

菲戈:我18岁时有球员抽烟,甚至有球员在中场休息时喝酒

懂球帝
2026-02-10 21:57:10
高开低走!枪手天才迷失在法甲舞台 连续2场半场被换下

高开低走!枪手天才迷失在法甲舞台 连续2场半场被换下

球事百科吖
2026-02-11 08:12:44
湖北17岁女孩高考前确诊脑死亡,父母签完器官捐赠,突然接到来电

湖北17岁女孩高考前确诊脑死亡,父母签完器官捐赠,突然接到来电

明智家庭教育
2026-02-09 19:53:41
马云马化腾现身压阵大模型,互联网格局重回20年前?

马云马化腾现身压阵大模型,互联网格局重回20年前?

BT财经
2026-02-11 07:00:03
乌克兰故地重游攻入库尔斯克的苏贾!突袭俄空降兵指挥部

乌克兰故地重游攻入库尔斯克的苏贾!突袭俄空降兵指挥部

项鹏飞
2026-02-10 17:47:13
对印反击战5年后中印再次交火,我军伤亡百余人,印军伤亡多少?

对印反击战5年后中印再次交火,我军伤亡百余人,印军伤亡多少?

明月清风阁
2026-02-11 07:00:17
中国存在“两大威胁”,一个台湾,另一个则曾需百万大军才镇住

中国存在“两大威胁”,一个台湾,另一个则曾需百万大军才镇住

无情有思ss
2026-01-23 08:30:45
切里舍夫:时光倒流我会留在皇马,俄罗斯国家队给我施加了压力

切里舍夫:时光倒流我会留在皇马,俄罗斯国家队给我施加了压力

云隐南山
2026-02-11 10:17:25
反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

胖哥不胡说
2026-01-20 11:47:25
俄罗斯与西方国家,均已切身感受到中国的战争潜力,最终得出的结论是:其底蕴深不可测

俄罗斯与西方国家,均已切身感受到中国的战争潜力,最终得出的结论是:其底蕴深不可测

寄史言志
2026-01-15 15:47:08
集体跑路?2026首个行业倒闭潮来袭,原来稳赚不赔,如今为何赔钱

集体跑路?2026首个行业倒闭潮来袭,原来稳赚不赔,如今为何赔钱

蜉蝣说
2026-02-11 10:12:41
马斯克一道指令把俄军打回原形,让普京政府认清残酷的现实

马斯克一道指令把俄军打回原形,让普京政府认清残酷的现实

纵拥千千晚星
2026-02-09 10:38:02
世界10大最缺男人的国家:美女太多“泛滥成灾”,男人成为稀缺品

世界10大最缺男人的国家:美女太多“泛滥成灾”,男人成为稀缺品

芳芳历史烩
2026-01-28 07:14:01
全网恭喜!45岁宋佳正式上任,职务不一般,黑龙江人民这下有福了

全网恭喜!45岁宋佳正式上任,职务不一般,黑龙江人民这下有福了

查尔菲的笔记
2026-02-10 15:47:57
父爱太沉重!孩子高烧40度,攀枝花一男子醉驾送医,结果被判刑…

父爱太沉重!孩子高烧40度,攀枝花一男子醉驾送医,结果被判刑…

火山詩话
2026-02-10 10:18:34
2026-02-11 10:56:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2169549文章数 5435关注度
往期回顾 全部

科技要闻

中芯国际去年营收673亿元 净利50亿增长36%

头条要闻

男子回老家祭祖被猎捕装置电死 脚上挂着一根细铁丝

头条要闻

男子回老家祭祖被猎捕装置电死 脚上挂着一根细铁丝

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

Seedance2.0产业冲击波

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

房产
艺术
旅游
公开课
军事航空

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

艺术要闻

楷书进步缓慢的原因是什么?

旅游要闻

吕梁市博物馆2026年春节假期开放公告

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版