香港科技大学（广州）等机构联合推出"记忆竞技场"|机器人|真实世界

分享至

这项由香港科技大学（广州）联合浙江大学、西湖大学、清华大学、浙江工业大学、上海交通大学等多所顶尖高校协作完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.10921。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。

你有没有遇到过这样的情景：早上出门前明明把钥匙放在桌上，几分钟后却完全不记得放哪里了？或者做一道菜时，需要记住上一步放了多少盐，才能判断下一步还需不需要再加？对人类来说，记忆如此自然，以至于我们几乎不会意识到它有多重要。但对于机器人来说，这偏偏是一道长期难以跨越的门槛。

机器人正在越来越多地进入我们的生活，从工厂车间到家庭厨房，人们期待它们能完成更复杂、更连续的任务。然而，现有的大多数机器人就像一个患有严重短期失忆症的工人——每次动作都只盯着眼前的画面，完全不记得刚才发生了什么。一旦某个关键物体被盖住、一旦需要记住"已经倒了几次"，它便会手足无措，反复犯错。这不是动作能力的问题，而是记忆能力的缺失。

正是为了正面解决这个问题，研究团队构建了一个名为"RoboMemArena"（机器人记忆竞技场）的大型测试平台，并设计了一套名为"PrediMem"的机器人记忆系统。这项工作首次系统性地将"记忆能力"作为衡量机器人智能的核心指标，不仅提供了全面的测试任务，还为记忆能力的提升提供了具体可行的技术方案，并在真实机器人上进行了物理验证。

一、机器人为什么需要"记性"？现有系统的痛点在哪里

要理解这项研究的价值，得先弄清楚一件事：现在的机器人到底"记性"有多差？

目前主流的机器人控制系统，包括那些基于大型语言模型和视觉模型训练出来的"基础策略"，大多数都是所谓的"反应式策略"。这个词听起来很高级，但本质上就是：机器人只根据当前这一帧画面来决定下一步怎么动。就像一个只能看当下、完全无法回忆过去的人。这在简单任务里还凑合，但一旦任务需要跨越时间——比如先把东西放进抽屉、关上抽屉、然后再记住应该去取那个已经被遮住的东西——这种系统就会彻底崩溃。

研究团队发现，现有的机器人记忆测试平台也存在三个严重短板。第一，这些平台缺少"多模态记忆标注"，也就是说，它们没有同时记录视觉关键帧和语言描述的数据，导致无法给机器人提供类似人类记忆那样图文并茂的训练素材。第二，现有测试的任务太简单，大多数任务都很短，场景结构也不复杂，很多任务其实根本不需要记忆也能完成。第三，这些测试几乎全部停留在虚拟仿真环境中，从未在真实机器人上验证过，而现实世界的复杂性远比仿真高出不止一个量级。

正是带着解决这三个问题的目标，研究团队从零开始构建了RoboMemArena。

二、"记忆竞技场"长什么样？二十六个挑战任务的设计逻辑

RoboMemArena包含26个专门考验记忆能力的任务，这些任务被分成四大类，每一类都对应一种典型的记忆失败场景。

第一类叫做"多物体转移"，共4个任务。机器人需要把多个物体从一个容器移到另一个容器，而这些容器在外观上几乎一模一样。挑战在于，机器人必须同时记住"哪个东西原来在哪里"以及"哪些已经移完了"。这就好比你需要把冰箱左格的食物搬到右格，但两格长得完全一样，稍不留神就会搬错或重复搬同一件。

第二类叫做"多物体遮挡"，共11个任务，也是四类中数量最多的。机器人需要把物体放进抽屉或柜子，然后在抽屉关闭后，根据记忆判断接下来应该去哪个抽屉、放什么东西。抽屉一旦关上，所有视觉线索都消失了，机器人必须完全依靠"记住刚才看到了什么"才能正确行动。这类任务数量最多，正是因为日常生活中遮挡造成的记忆失效太过普遍。

第三类叫做"多物体计数"，共7个任务。机器人必须执行固定次数的重复动作，比如往锅里倒恰好两次番茄酱。麻烦在于，第一次和第二次倒完之后，场景看起来几乎没有变化，机器人需要在脑子里默默数数，才不会多倒一次或少倒一次。

第四类叫做"多物体序列"，共4个任务。正确的下一步动作取决于更早发生的某个结果，比如需要把新物体放入之前某个步骤用过的同一个容器里。挑战不仅在于遮挡，还在于需要追踪跨越多个操作步骤的因果关系。

这26个任务加在一起，平均每个任务的轨迹长度超过1076步——这是一个很大的数字，对比之下，现有的同类测试平台平均只有不到700步，最短的甚至只有93步。更重要的是，研究团队还统计了一个叫做"历史依赖子任务比例"的指标：在RoboMemArena里，104个子任务中有104/151即68.9%是必须依赖历史信息才能正确执行的。这个比例在所有同类测试平台中是最高的，说明这个平台真正把"记忆"放在了核心位置。

除了仿真任务，研究团队还设计了5个真实世界的记忆任务，在AgileX公司的双臂移动机器人平台上进行测试。这5个任务分别是：倒两次水、换顺序擦盘子、转移物体、猜杯游戏（把目标藏在某个杯下然后换位），以及最复杂的"模仿人类做早餐"——这个任务需要机器人观看一次人类示范，然后在记忆的引导下完成整套早餐制作流程，最长的演示超过三分钟。

三、数据怎么来的？一条自动化流水线的三个步骤

收集机器人训练数据是一件极其耗时耗力的事。通常的做法是让人手动控制机器人完成每一次示范，这既慢又贵。RoboMemArena采用了一套自动化的三段式流水线，大大降低了数据收集的成本，同时保证了标注的质量。

第一步是"任务分解"。给定一条高层次的任务描述（比如"把番茄酱倒在饼干上两次然后加热"）和一张当前环境的图片，一个视觉语言模型会自动把这条描述分解成一系列有序的、可执行的子任务。这些子任务会被分配给五种预定义的基本动作之一：移动、放置、倾倒、打开和关闭。生成的分解结果会经过人工检查，把不合适或不一致的部分修正掉，确保质量。

第二步是"自动执行"。借助一种叫做AnyGrasp的六自由度抓取姿态估计系统，机器人可以根据点云输入自动规划抓取动作，然后把这些动作分配给预定义的原始动作来生成完整轨迹。系统还加入了一个"后置条件检查器"：每完成一个子任务，系统都会验证是否真的成功，如果失败就用更新的抓取姿态重试。这个闭环执行机制保证了数据收集的成功率，同时全程无需人工干预。

第三步是"关键帧提取"。这是最技术性的一步，目的是从连续的机器人动作轨迹中挑选出最有信息量的"关键瞬间"，为后续的记忆训练提供高质量的标注。研究团队采用了两类物理条件来识别关键帧。一类是"物理交互锚点"：当机器人的夹爪状态发生变化时（从张开变为闭合，或反之），就意味着发生了抓取或释放动作，这些时刻会被标记为关键帧。另一类是"运动学拐点"：当末端执行器的速度接近零或者运动方向急剧改变时，说明机器人正在从一个动作阶段过渡到另一个阶段，这些时刻同样会被标记。

最终，26个任务各收集100条成功演示，共产生2600条长轨迹，并生成了15100个关键帧对齐的短片段用于层次化监督训练。整个数据集包含约280万帧画面，总时长约38.83小时。

四、PrediMem是怎么工作的？一个"双脑"记忆系统的运作原理

有了好的测试平台和训练数据，接下来的问题是：怎么设计一个真正有记忆能力的机器人系统？

研究团队提出的PrediMem采用了一种"双系统"架构，这个设计灵感来自认知科学中的"系统一/系统二"理论。简单来说，人类大脑在处理问题时有两种模式：一种是快速直觉反应（系统一），比如看到障碍物本能地躲开；另一种是慢速深度思考（系统二），比如规划一整天的行程。PrediMem把这两种模式分别交给两个组件来负责。

"系统二"（S2）是高层规划者，由一个叫做Qwen3-VL-8B-Instruct的视觉语言模型担任。它的工作是：结合当前观察和记忆库，判断机器人现在应该执行哪个子任务，以及当前这一帧是否应该被存入记忆库作为关键帧。S2的运行频率相对较低，大约每秒更新一次。

"系统一"（S1）是低层执行者，由一个叫做π0.5的视觉语言动作模型担任。它的工作是：根据S2给出的最新子任务指令和当前视觉观察，以更高的频率（每秒约3.4次）输出具体的动作序列。

连接这两个系统的是一个"记忆库"。记忆库由两部分组成：一个"近期缓冲区"保存最近的16帧画面，像一个随时更新的短期记忆；一个"关键帧缓冲区"专门存储被S2判断为重要的历史帧，不设上限，像一个可以无限积累的长期记忆。这两个缓冲区共同构成S2做决策时的信息来源。

两个系统是异步运行的：S2每次更新对应大约S1执行的2.92个动作块。当S2产生新的子任务判断时，S1立刻切换到新的指令；而在S2运算期间，S1继续用上一次的指令执行动作，不会中断。

PrediMem最具创新性的设计是一个叫做"预测编码头"的模块。这个模块只在训练阶段使用，推理阶段会被移除，因此不会增加实际部署时的计算成本。它的工作原理是：在训练时，要求模型根据当前帧的视觉特征预测下一帧的视觉表征，并将预测结果与真实的下一帧特征进行比较，计算误差，用这个误差来额外督促模型学习。预测损失由两部分组成：均方误差（衡量绝对距离）和余弦距离（衡量方向差异），两者相加构成最终的预测编码损失，权重设为0.1。

这个设计背后的直觉是：如果模型能够预测"下一步会发生什么"，它就必须更好地理解"当前正在发生什么"。特别是在关键帧出现的时刻——比如抽屉刚刚关上、物体刚刚被放入某处——当前帧和下一帧之间的变化是最剧烈的，预测误差也最大，这会迫使模型对这些状态转变时刻保持更高的敏感度。训练结束后，这种敏感度被"烙印"在了模型的参数里，即使推理时没有预测编码头，模型也能更准确地识别哪些帧是值得存入记忆的关键帧。

五、实验结果说明了什么？数字背后的真实含义

研究团队设计了两套评估指标来衡量机器人的表现。第一套叫"任务成功率"（TSR），只有当一个任务的所有验证阶段全部通过时才算成功，是一个严格的全有或全无判断。第二套叫"累积成功率"（CSR），记录每个任务完成了多大比例的验证阶段，即使没有完全成功也能反映进度。这两个指标配合使用，能更全面地衡量机器人在长任务中的表现。

实验对比了多个已有方法。π0.5是纯反应式策略，平均任务成功率为21.5%，累积成功率38.7%。它在某些序列任务上成绩还凑合，因为那些任务的中间步骤仍然可以通过当前视觉来判断，但一旦遇到需要记忆历史状态的任务，就几乎全部失败——典型的失败模式是在抽屉任务中，第一个抽屉关闭后场景恢复视觉相似状态，π0.5会反复打开同一个抽屉，陷入死循环。

HiF-VLA引入了更丰富的动作表征，平均成功率16.9%，比π0.5更低，说明仅仅增加动作表征的丰富度并不能解决记忆缺失的根本问题。MemoryVLA用Transformer的token来存储历史信息，成功率15.0%，因为这种token级的记忆并没有与稀疏的物理状态转变对齐，在这个以物理事件为核心的测试平台上效果不佳。MemER采用了双系统设计并通过关键帧检索来辅助决策，成功率27.3%，是所有基线中最好的，但因为其高层模型对任务动态的感知能力有限，关键帧的选择往往不够精准。

PrediMem的平均任务成功率达到38.5%，比最佳基线MemER高出40%，累积成功率55.2%。在遮挡任务这一最具挑战性的类别上，PrediMem的成功率27.3%相比MemER的16.4%有了显著提升，充分说明了关键帧记忆库和预测编码的协同效果。

研究团队还测试了两个强大的闭源商业系统作为参考：将Qwen3-VL-8B（不微调，直接用）作为规划者，成功率只有6.0%；将最先进的GPT-5.4接入系统，成功率也只有8.7%。这说明即便是市面上最强的通用视觉语言模型，如果没有在机器人数据上进行专门训练，也无法胜任作为机器人记忆管理模块的角色。语言和图像领域的"强大记忆"并不能自动迁移到物理操作场景中——这是一个重要的发现。

消融实验进一步拆解了PrediMem的各个组件的贡献。移除预测编码头后，成功率从38.5%降至32.3%，说明预测编码确实有效，尤其在遮挡、计数和序列任务上效果更明显，因为这些任务需要捕捉更细微的状态变化。移除关键帧记忆库后，成功率降至17.7%，跌幅更大，说明显式的长期记忆对于高层规划至关重要——一旦历史事件超出近期窗口就无从找回，整个规划就会失去根基。

研究团队还用t-SNE降维可视化了有无预测编码时的关键帧表征差异。没有预测编码时，不同类型关键帧的隐藏状态表征混叠在一起，难以区分；加入预测编码后，同类关键帧的表征变得更紧密，不同类别的表征分开得更清晰。这直观地证明了预测编码确实让模型学到了更有区分度的关键帧理解能力。

关于记忆库容量的规律也值得关注：近期缓冲区在3到5帧时性能最好，太少了则缺乏足够的时序信息，太多了则引入冗余、增加延迟。关键帧缓冲区则是越大越好，不设上限时达到最优，因为早期的决定性观察——比如第一个抽屉的状态——在经历了很多后续操作后仍需被保留。关于S2模型规模，从1.7B参数增加到4B再到8B，性能稳步提升，说明更大的模型确实带来更强的推理和记忆管理能力。

在真实机器人上，PrediMem的平均成功率52%，远高于π0.5的20%和MemER的40%。最引人注目的是那个长达三分钟的"模仿人类做早餐"任务——在所有测试方法中，只有PrediMem能够完成这个任务，其他方法全部以0%的成功率告终。这个结果清楚地表明，在真正复杂的现实场景中，有效的记忆机制不是可选的附加功能，而是完成任务的必要条件。

归根结底，这项研究的意义在于它把"机器人记忆"从一个模糊的概念变成了可以系统测量、可以针对性训练、可以在真实世界验证的工程问题。RoboMemArena提供了迄今为止最严格的记忆测试标准，覆盖了遮挡、计数、转移和序列四类核心场景，而PrediMem则证明了一条切实可行的技术路径：通过层次化记忆库加上训练时的预测编码，可以在不增加推理成本的前提下，大幅提升机器人在长时程任务中的记忆管理能力。

当然，目前PrediMem的成功率在最复杂的任务类别上仍然远低于人类水平——就连人工标注的"理想答案"给机器人去模仿，也只能达到46.1%的成功率，说明任务本身的难度极高，还有大量提升空间。未来，随着更强大的视觉语言模型、更精细的关键帧选择策略，以及更多真实世界数据的积累，机器人的记忆能力有望持续改善。

那些正在考虑部署家庭服务机器人、手术辅助机器人或工业流程自动化的研究者和工程师，不妨思考一个问题：你所设计的系统，在执行到任务的第500步时，还能准确记得第3步发生了什么吗？如果答案是否定的，那么RoboMemArena或许正是一个值得认真研究的起点。有兴趣深入了解的读者，可以通过arXiv编号2605.10921查阅完整论文，数据集和模型权重也已开源，可通过论文中提供的地址获取。

Q&A

Q1：RoboMemArena基准测试和现有机器人测试平台相比有什么不同？

A：RoboMemArena最核心的区别有三点：它同时提供视觉关键帧和语言子任务两种模态的记忆标注；平均任务轨迹长度超过1076步，远超现有同类平台；68.9%的子任务需要依赖历史信息才能正确执行，是所有同类测试中历史依赖比例最高的。此外，它还配套了真实机器人上的五个物理验证任务，而现有平台大多只停留在仿真环境中。

Q2：PrediMem的预测编码头在推理时会增加计算成本吗？

A：不会。预测编码头只在训练阶段使用，推理时会被完全移除。它的作用是在训练过程中迫使模型学习更敏感的关键帧表征，这种能力在训练结束后会被"固化"在模型参数里。因此，PrediMem在实际部署时的推理架构与标准双系统框架完全相同，不引入任何额外的推理时间或内存开销。

Q3：为什么GPT-5.4这样强大的商业模型在RoboMemArena上表现反而不如专门训练的模型？

A：GPT-5.4等通用视觉语言模型主要在语言和图像数据上训练，对物理操作场景的理解和记忆并不适用。机器人任务要求模型理解抓取状态、容器遮挡、动作计数等高度专业化的物理概念，这些概念在通用训练数据中极为稀少。研究结果表明，即便是最强的通用模型，如果没有在机器人操作数据上进行针对性微调，也无法有效担任机器人的记忆管理角色，其任务成功率仅为8.7%，远低于专门训练的PrediMem的38.5%。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.