网易首页 > 网易号 > 正文 申请入驻

告别机器人“断片”!KAIST和UC Berkeley团队让VLA模型拥有记忆

0
分享至

机器人伸手去拿桌上的杯子,它需要知道自己刚才有没有抓住过这个杯子吗?答案是肯定的。但现有的视觉-语言-动作模型(VLA)大多只盯着当前画面做决策,完全没有“历史记忆”。这就导致机器人在处理遮挡物体、多步骤堆叠这类需要上下文的任务时,很容易陷入混乱。



近日,来自KAIST和UC Berkeley 的团队提出了一个名为HAMLET的框架,给预训练VLA模型补上了“历史感知”的短板。这个轻量级插件不需要从头训练大模型,却能让机器人在长时操控任务中,平均成功率直接提升47.2%。在真实场景的“盖方块 叠杯子”任务里,HAMLET更是把成功率从37.5%拉到了79.2%,彻底解决了机器人“断片”的问题。

01.

没有记忆的机器人 连叠杯子都做不好

当下主流的VLA模型,比如GR00T N1.5、CogACT,都遵循“单帧假设”,只靠当前的视觉画面和文本指令来预测下一步动作。这种设计在简单任务里没问题,但遇到需要上下文的长时任务,就会立刻露怯。

举个例子,“用最近的杯子盖住方块,再把另一个杯子叠上去”这个任务,当机器人用第一个杯子盖住方块后,方块就被遮挡住了。如果没有历史记忆,机器人看着眼前的两个杯子,根本不知道哪个杯子下面藏着方块,大概率会重复抓取同一个杯子。论文里的实验也印证了这一点:GR00T N1.5在这个任务上的成功率只有37.5%,甚至会出现“拿起杯子又放下,反复横跳”的滑稽场面。

更麻烦的是,给模型简单堆砌历史帧根本行不通。研究团队发现,在VLA输入里多塞4帧历史画面,会让模型的前向推理速度变慢35%,峰值内存占用直接暴涨3.6倍。这种粗暴的方法不仅效率低下,还会因为引入冗余信息,导致模型在复杂场景下的泛化能力下降。

02.

HAMLET的两大核心:给每一刻“拍快照”,再用记忆模块整合

HAMLET的巧妙之处在于,它没有抛弃现有的VLA模型,而是通过两个核心组件,给模型加装了一个轻量化的“记忆系统”,整个过程只需要微调,不用从头训练。

1、时刻令牌:给每个时间步拍一张“信息快照”

首先,HAMLET设计了 时刻令牌(moment tokens) ,用来给每个时间步的场景信息做“压缩存档”。这些令牌是可学习的向量,会被拼接到VLA模型的输入序列里。



为了让时刻令牌只记住关键信息,团队用了时间对比学习(TCL)的方法来初始化它们。具体来说,就是让同一个时间步的增强图像(比如加了模糊、噪声的版本)对应的令牌尽可能相似,让不同时间步的令牌尽可能不同。这样一来,时刻令牌就会自动忽略掉桌子、墙壁这些静态背景,只聚焦于机器人抓手、待操作物体这些动态变化的关键区域。

经过TCL初始化的时刻令牌,相当于给每个时间步的场景拍了一张“信息快照”,既保留了任务相关的动态特征,又剔除了冗余信息,为后续的记忆整合打下了基础。

2、轻量记忆模块:只提取有用的历史信息

有了时刻令牌这个“快照库”,接下来就需要一个 记忆模块 来筛选和整合这些快照。HAMLET没有用复杂的循环神经网络,而是选择了一个两层的Transformer架构,专门用来处理历史时刻令牌。



这个记忆模块会把最近的T个时刻令牌堆叠成一个历史矩阵,再通过因果自注意力机制,自动判断哪些历史时刻对当前决策更重要。比如在“交换两个方块”的任务中,当机器人需要决定下一步抓哪个方块时,记忆模块会重点关注“蓝色方块被放到辅助位置”的那个时间步,而忽略掉无关的移动过程。

最终,记忆模块会输出一个融合了历史信息的特征向量,把它和VLA模型原本的单帧特征拼接在一起,再输入到动作预测头里。这样一来,模型就能同时参考当前画面和历史上下文,做出更准确的决策。

03.

实测:长时任务成功率碾压基线,效率还更高

为了验证HAMLET的效果,团队在真实机器人和仿真环境中做了大量实验,测试对象包括GR00T N1.5和CogACT两款主流VLA模型。



在真实场景的三项长时任务中,HAMLET的表现堪称惊艳。在“两次拾取放置”任务里,它把GR00T N1.5的成功率从12.5%提升到66.7%;在“交换方块”任务中,成功率从37.5%跃升至83.3%,平均成功率直接达到76.4%,比基线模型高出47.2个百分点。



即便是在通用仿真基准测试中,HAMLET也展现出了强大的泛化能力:在RoboCasa Kitchen数据集上,它把成功率从64.1%提升到66.4%;在LIBERO数据集上,更是将行业领先的95.6%成功率推高到97.7%。



更关键的是,HAMLET在提升性能的同时,还保持了极高的效率。对比简单堆叠历史帧的方法,当历史长度为8时,后者会让模型推理速度变慢2.4倍,内存占用暴涨7倍;而HAMLET的推理速度仅增加7%,内存占用仅增加1倍,完全不会给部署带来额外负担。

04.

不只是 机器人:记忆模块还能跨任务迁移

HAMLET的另一个惊喜之处在于,它的记忆模块具备 跨任务迁移能力 。团队做了一个有趣的实验:先在LIBERO数据集上训练记忆模块,然后直接把它迁移到RoboCasa Kitchen数据集上测试。结果显示,迁移后的记忆模块依然能让模型成功率提升1.9个百分点,几乎和在目标数据集上训练的效果持平。

这意味着,HAMLET的记忆模块学到的不是某个特定任务的历史规律,而是一种通用的“历史信息处理能力”。未来只要在一个数据集上训练好记忆模块,就能直接用到其他机器人操控任务中,大大降低了部署成本。

05.

结语与未来:

HAMLET的出现,解决了VLA模型“没有历史记忆”的核心痛点。它不需要重构大模型的架构,也不需要海量的训练数据,只通过时刻令牌和轻量记忆模块的组合,就能让现有VLA模型快速具备历史感知能力。

在机器人迈向通用化的路上,“记忆”无疑是不可或缺的一环。当机器人能记住自己刚才做了什么,能分辨出哪个物体是之前操作过的,它才能真正理解复杂的人类指令,完成更具挑战性的长时操控任务。

论文地址:https://arxiv.org/pdf/2510.00695

项目地址:https://myungkyukoo.github.io/hamlet/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

秋姐居
2026-02-10 09:19:42
穆桂英战死前夜,托梦佘太君:我尸还必查,揭开杨家将覆灭的内鬼

穆桂英战死前夜,托梦佘太君:我尸还必查,揭开杨家将覆灭的内鬼

小莜读史
2026-02-17 15:32:58
伊朗国防部队已进入全面战备状态!美军已做好“最早本周末打击伊朗”准备!俄外长警告:将产生严重后果

伊朗国防部队已进入全面战备状态!美军已做好“最早本周末打击伊朗”准备!俄外长警告:将产生严重后果

每日经济新闻
2026-02-19 13:59:04
两部门:加强烟花爆竹“产储运销”和燃放全链条安全管控

两部门:加强烟花爆竹“产储运销”和燃放全链条安全管控

界面新闻
2026-02-19 14:25:20
为何国民党能在台湾成功推行土改?不参加的地主,一律算作共产党

为何国民党能在台湾成功推行土改?不参加的地主,一律算作共产党

顾史
2026-02-19 10:30:56
睡眠不好的人有福了,多吃这3种“助眠菜”,改善睡眠、安神清火

睡眠不好的人有福了,多吃这3种“助眠菜”,改善睡眠、安神清火

熊猫医学社
2026-02-19 11:35:03
全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

西楼知趣杂谈
2026-01-31 13:18:43
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
除尹锡悦外,金龙显、赵志浩、金峰埴也被判刑

除尹锡悦外,金龙显、赵志浩、金峰埴也被判刑

上观新闻
2026-02-19 16:22:24
以为只是小毛病,一查竟是晚期!做完所有治疗,他还是永远离开了

以为只是小毛病,一查竟是晚期!做完所有治疗,他还是永远离开了

新时代的两性情感
2026-02-18 08:36:45
李保田:我一生不接广告,不和张国立、王刚合作,不参加儿子婚礼

李保田:我一生不接广告,不和张国立、王刚合作,不参加儿子婚礼

小熊侃史
2026-02-15 07:25:11
漫才兄弟登春晚口碑两极!语速快到倍速无字幕,北方观众像听天书

漫才兄弟登春晚口碑两极!语速快到倍速无字幕,北方观众像听天书

眼光很亮
2026-02-17 09:30:11
女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

黄河新闻网吕梁频道
2026-02-18 15:07:20
太感人!94岁老人除夕吃完团圆饭后离世,走的很安详,没有痛苦

太感人!94岁老人除夕吃完团圆饭后离世,走的很安详,没有痛苦

小鹿姐姐情感说
2026-02-19 15:07:03
得知女儿把公婆接来一起生活,我停掉每月3500房贷,女儿说我狠心

得知女儿把公婆接来一起生活,我停掉每月3500房贷,女儿说我狠心

胡小乖
2026-02-19 18:20:39
两岸统一的风向:赖清德由独转统,或能成就统一功绩

两岸统一的风向:赖清德由独转统,或能成就统一功绩

辉辉历史记
2026-01-09 17:46:37
马年春晚刘浩存一舞封神,老登小登集体沦陷!

马年春晚刘浩存一舞封神,老登小登集体沦陷!

微微热评
2026-02-18 22:19:36
血债必须偿还,中俄已联手,俄率先开第一枪,日本14人被列为战犯

血债必须偿还,中俄已联手,俄率先开第一枪,日本14人被列为战犯

刘森森
2026-01-31 21:07:01
娱乐圈著名6对“死对头”,个个矛盾根深蒂固,至今老死不相往来

娱乐圈著名6对“死对头”,个个矛盾根深蒂固,至今老死不相往来

a入画浅相思
2026-02-18 18:16:12
套现188亿,四川巨富被监视居住半年后,把控制权卖给了国资

套现188亿,四川巨富被监视居住半年后,把控制权卖给了国资

聚焦真实瞬间
2026-02-11 08:56:53
2026-02-19 20:07:02
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
6288文章数 4576关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

尹锡悦被判无期只瞥了一眼法官 离庭时与律师相视一笑

头条要闻

尹锡悦被判无期只瞥了一眼法官 离庭时与律师相视一笑

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

数码
家居
手机
健康
公开课

数码要闻

双杀:网友买完AMD Ryzen 7 9800X3D买9850X3D,结果全坏了

家居要闻

本真栖居 爱暖伴流年

手机要闻

全球限14台:Caviar推“爱之翼”限量iPhone 17 Pro/Max

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版