网易首页 > 网易号 > 正文 申请入驻

具身智能迈入下半场,RoboMemArena全面评测机器人记忆系统

0
分享至

来源:市场资讯

(来源:机器之心)

具身基座模型(VLA、世界模型)这两年进步很快。但只要任务一长、场景一复杂,一个很现实的问题就会立刻出现:机器人很多时候不是「不会做」,而是「记不住」。比如:

  • 柜子之前有没有打开过?

  • 物体被遮挡之前放到了哪里?

  • 某个重复动作已经执行了几次?

  • 人类刚才示范过的顺序到底是什么?

这些都不是只看当前一帧图像就能解决的问题。也正因为如此,我们越来越觉得:现有很多机器人 benchmark 虽然在操作上已经很丰富,但对 memory-dependent long-horizon manipulation 的刻画还远远不够。

于是,香港科技大学(广州)联合清华大学、浙江大学、西湖大学、上海交通大学等多所顶尖高校与科研机构共同打造了具身智能领域首个聚焦「机器人记忆能力」的系统性评测基准 RoboMemArena,旨在填补长期以来机器人在长时程任务与历史状态记忆评估上的空白。

该基准突破传统机器人 Benchmark 仅关注短期感知与即时控制的局限,构建了涵盖物体转移、目标遮挡、动作计数与顺序执行四大核心记忆场景的综合评测体系,共包含 26 项长时程任务、151 个细粒度子任务以及 2600 条专家演示轨迹。同时配套复杂的真机测评和 leaderboard,支持外部单位手动上传模型进行真机评测,为具身智能系统在长期规划、世界状态理解与动态决策方面提供了更接近真实世界的统一评测标准。


  • 论文标题:RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

  • 论文地址:https://arxiv.org/abs/2605.10921

  • 项目地址:https://robomemarena.github.io/

  • 代码地址:https://github.com/OpenHelix-Team/RoboMemArena

  • Leaderboard地址:https://robomemarena.github.io/leaderboard.html

  • 数据集地址:https://huggingface.co/datasets/RoboMemArenaBenchmark/RoboMemArena

如果一个 benchmark 本身没有把 memory 需求设计清楚,那么后面的模型比较其实很难公平:

  • 有些任务看起来很长,但其实当前观察就足够决策;

  • 有些 benchmark 有长程执行,却没有为 memory formation 提供直接监督;

  • 还有一些工作只停留在 simulation,没有配套的真实机器人验证。

RoboMemArena 想补上的,正是这块空缺。它不是简单做更多任务,而是试图把「机器人到底什么时候必须依赖历史信息」这件事,系统化地组织起来。


RoboMemArena 的三个核心特点

1. 它提供了构建 robot memory 所必需的多模态标注

这是我们最看重的一点。很多 memory benchmark 只能告诉你最终成功还是失败,但如果模型真的要学会「记住过去」,它需要的往往不只是最终标签。

RoboMemArena 提供了更贴近 memory formation 的多模态监督,包括:

  • subtask-level annotations:把长程轨迹拆成可执行、可理解的子任务;

  • native keyframe annotations:显式标记那些真正重要的物理状态转折;

  • 与轨迹对应的视觉观测、动作和机器人状态。

也就是说,我们不仅告诉模型「这个任务要完成」,还尽量告诉它「历史里哪些瞬间值得记住」。这也是 RoboMemArena 和很多已有 benchmark 非常不同的地方。


2. 它在 memory benchmark 里足够长程,也足够 diverse

RoboMemArena 一共包含 26 个任务,覆盖四类典型的 memory-demand setting:

  • Transferring(物体转移)

  • Occlusion(目标遮挡)

  • Counting(动作计数)

  • Sequence(顺序执行)

这些任务并不是为了「凑数量」,而是围绕 reactive policy 的典型失败模式来设计的。从统计上看,RoboMemArena 有几个非常关键的数字:

  • 平均每个任务超过 1000 steps

  • 一共收集 2600 条长程视觉轨迹

  • 进一步切分得到 15100 个 keyframe-aligned 短段

  • 全部 151 个子任务里,68.9% 是 memory-dependent


换句话说,这不是一个「顺带考一下记忆」的 benchmark,而是一个把历史依赖明确放到台面上的 benchmark。

3. 它不只停留在 simulation,还配套了复杂真机测评

这也是我们特别想补上的地方。

如果一个 memory 方法只能在 simulation 里有效,那它距离真正的 embodied system 还是有一段距离。所以在 RoboMemArena 里,我们不仅做了仿真 benchmark,还配套设计了 5 个真实机器人 memory 任务:

  • Pour Bottle ×2(动作计数任务)

  • Brush Plates with Swap(状态不可见任务)

  • Transfer Objects(顺序执行任务)

  • Shell Game(隐藏状态追踪任务)

  • IHMBImitate Human to Make Breakfast (IHMB)(长程模仿任务)

其中最长的真实任务超过 3 分钟,而且在最复杂的 IHMB(模仿人类做早餐) 任务上,只有我们的 PrediMem 能够成功完成。

这意味着 memory 机制带来的提升,不只是 simulation 里的表面收益,而是在真实执行噪声下依然有价值。

为什么我们说它 easy to use?

我们不希望 RoboMemArena 只是一个「写论文用的 benchmark」,也希望它能被后来者真正拿来训练、复现和比较。所以在开放资源上,我们尽量把入口做完整:

  • 开源 26 个任务的高质量训练数据,并带有子任务、关键帧、HDF5 轨迹结构 等丰富标注;

  • 提供 26 个 BDDL 任务定义、LIBERO-compatible evaluation environment,以及与 mujoco + robosuite + OpenGL/EGL 兼容的评测路径;

  • 开放 PrediMem 相关训练与评测实现入口,并已经系统跑出 π0.5、MemoryVLA、MemER、HiF-VLA 等代表性 baseline。

换句话说,如果你想直接在统一 benchmark 上做 robot memory 研究,RoboMemArena 已经尽量把最费时间的那部分前置工作替大家做掉了。

PrediMem 到底强在哪里?


如果说 RoboMemArena 回答的是:memory benchmark 应该怎么做。那么 PrediMem 回答的就是:在这样一个 benchmark 上,一个真正有效的 memory-aware baseline 应该长什么样

PrediMem 是一个 dual-system VLA:

  • 高层 VLM 负责规划和 memory 管理

  • 低层 VLA 负责执行动作 chunk

它的关键不在于盲目加大模型,而在于让高层 planner 显式维护:

  • recent-frame buffer

  • keyframe buffer

并且通过 predictive coding head,让高层表征对物理状态转折更敏感。这种设计看起来不算复杂,但在 long-horizon、partially observable 的场景里非常关键。

实验上,它把 memory 这件事真正拉开了差距


在仿真实验里,PrediMem 的整体结果优于所有 baseline:

  • PrediMem:38.5% TSR / 55.2% CSR

  • MemER:27.3% TSR / 49.1% CSR

  • π0.5:21.5% TSR / 38.7% CSR

如果再细看四类任务,PrediMem 在 Transferring、Occlusion、Counting、Sequence 上都拿到了最好的平均结果,其中在最依赖历史状态保持的 Sequence 上达到 72.5% TSR / 89.5% CSR,在 Occlusion 和 Counting 这两类 memory-demand 最强的设置里也明显拉开了和 baseline 的差距。

而在真实机器人任务上,结果同样清楚:

  • PrediMem:52% average success

  • MemER:40%

  • π0.5:20%

更重要的是,在最长、最复杂、最依赖历史信息的 IHMB 上,只有 PrediMem 成功。而且从消融实验也能看到,无论去掉 predictive coding head 还是拿掉 keyframe bank,整体表现都会明显下降。

这说明 PrediMem 的优势并不来自单纯「模型更大」,而是确实来自对历史信息组织方式的改进。这也说明 memory 不是一个「锦上添花」的小模块,而是长程机器人执行里决定任务能不能贯通的核心能力。

我们真正希望 RoboMemArena 带来什么?

我们希望它不只是又一个 benchmark 名字,更希望它把一个长期被低估的问题真正抬出来:对于 long-horizon robotic execution,memory 不是可选项,而是基础能力。

如果一个系统不能记住:

  • 之前发生了什么

  • 哪些状态变化值得保留

  • 人类刚刚示范过怎样的顺序

那么它在真实复杂任务里就很难真正稳定。

RoboMemArena 想做的,就是把这件事用一个更完整、更可训练、更可比较、也更能落到真机上的方式组织起来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美股半导体硬件、存储芯片、服务器、应用软件全线爆发 多股再创历史新高

美股半导体硬件、存储芯片、服务器、应用软件全线爆发 多股再创历史新高

财联社
2026-05-29 21:44:13
20岁大学生祝小丹确诊癌症,颜值超高,因脖子长包确诊,常熬夜

20岁大学生祝小丹确诊癌症,颜值超高,因脖子长包确诊,常熬夜

180视角
2026-05-29 12:02:12
新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

影孖看世界
2026-05-29 23:54:06
烂透了!当下食品行业的道德底线,早已被贪婪的利益彻底碾碎。

烂透了!当下食品行业的道德底线,早已被贪婪的利益彻底碾碎。

二大爷观世界
2026-05-29 00:21:23
联想G02掌机调查:仅限中国卖,海外用户却收到4万款游戏

联想G02掌机调查:仅限中国卖,海外用户却收到4万款游戏

薛定谔的BUG
2026-05-28 05:55:46
下手太狠了!法网29日晚:6-0、6-0,双蛋诞生,将PK中国金花独苗

下手太狠了!法网29日晚:6-0、6-0,双蛋诞生,将PK中国金花独苗

生活新鲜市
2026-05-30 02:34:35
特朗普就结束伊朗战事提出条件

特朗普就结束伊朗战事提出条件

新华社
2026-05-29 23:05:06
巴萨杀疯了!1亿欧元报价阿尔瓦雷斯,90%敲定B席

巴萨杀疯了!1亿欧元报价阿尔瓦雷斯,90%敲定B席

体坛周报
2026-05-29 19:02:16
荷兰军舰上门挑衅!解放军电子战实战,荷兰军舰瘫痪12分钟!

荷兰军舰上门挑衅!解放军电子战实战,荷兰军舰瘫痪12分钟!

健身狂人
2026-05-29 19:35:49
首进大满贯16强!王曦雨2-0连赢八局横扫 豪取6连胜一盘未丢

首进大满贯16强!王曦雨2-0连赢八局横扫 豪取6连胜一盘未丢

醉卧浮生
2026-05-29 19:04:00
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
骑手将外卖挂在门把手上未打电话被投诉,顾客:很忌讳,像上供;骑手被罚款10元后划破顾客门锁,平台:无法赔偿修锁费用,建议走法律途径

骑手将外卖挂在门把手上未打电话被投诉,顾客:很忌讳,像上供;骑手被罚款10元后划破顾客门锁,平台:无法赔偿修锁费用,建议走法律途径

台州交通广播
2026-05-29 20:25:23
可怕:猪肉抗生素超标38倍,鸡蛋药物超标69倍!

可怕:猪肉抗生素超标38倍,鸡蛋药物超标69倍!

仕道
2026-05-29 11:58:11
非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

垚垚分享健康
2026-05-29 11:10:14
割四赔五后续:农民跪地拦车,老太已道歉赔钱,官方下场拉下帷幕

割四赔五后续:农民跪地拦车,老太已道歉赔钱,官方下场拉下帷幕

奇思妙想草叶君
2026-05-29 17:43:38
超级巨大失误!颜骏凌“下蛋”,邦本远射破门,穆斯卡特直挠头

超级巨大失误!颜骏凌“下蛋”,邦本远射破门,穆斯卡特直挠头

奥拜尔
2026-05-29 19:53:26
85分钟绝杀!上海海港倒下,输给升班马,徐正源神了:率队3连胜

85分钟绝杀!上海海港倒下,输给升班马,徐正源神了:率队3连胜

足球狗说
2026-05-29 21:35:20
赛力斯高管谈特斯拉FSD入华:FSD模拟的是人类视觉驾驶逻辑 华为乾崑智驾超越人眼

赛力斯高管谈特斯拉FSD入华:FSD模拟的是人类视觉驾驶逻辑 华为乾崑智驾超越人眼

快科技
2026-05-29 15:40:07
空姐的一句大实话,戳穿所有男人的本性,有钱还安分的男人太难得

空姐的一句大实话,戳穿所有男人的本性,有钱还安分的男人太难得

千秋文化
2026-05-27 19:49:01
向太这回恐要翻车!曝49岁黄晓明曾当众给她下跪,同桌十几人目睹

向太这回恐要翻车!曝49岁黄晓明曾当众给她下跪,同桌十几人目睹

寒士之言本尊
2026-05-29 16:09:42
2026-05-30 05:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3400323文章数 7703关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

特朗普肖像将印上美元纸币 面额250

头条要闻

特朗普肖像将印上美元纸币 面额250

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

房产
本地
艺术
手机
公开课

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

本地新闻

用剪纸的方式,打开江苏扬州

艺术要闻

粉墙黛瓦别样美

手机要闻

自研OS+玄戒+AI大模型,小米18系列,稳了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版