网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 最新录用|港科大等提出ReconVLA:利用视觉重构引导,刷新机器人操作精度!

0
分享至

一、导读

近年来,视觉-语言-动作模型(Vision-Language-Action,VLA)在机器人控制中展现出融合多模态理解与动作执行的能力。

然而,现有模型在感知图像时视觉注意力(visual attention)往往分散,难以聚焦于需要操作的目标物体,导致执行动作不准确。

为此,本文提出了一种重构式视觉-语言-动作模型 ReconVLA,通过引入一个隐式 grounding 机制,让模型在训练过程中学习重建图像中与任务相关的“凝视区域(gaze region)”,从而引导其更准确地关注目标物体。

该方法在模拟和真实机器人任务中均表现出更精准的操作能力和良好的泛化性能。

二、论文基本信息


  • 论文标题:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

  • 作者与单位:Wenxuan Song 等,来自香港科技大学(广州)、西湖大学、浙江大学、莫纳什大学等机构

  • 来源:AAAI 2026

  • 代码链接: https://github.com/OpenHelix-Team/ReconVLA

三、主要贡献与创新
  1. 提出 ReconVLA ,一种基于 隐式视觉 grounding 的 VLA 模型,通过重建凝视区域提升视觉注意力精度。

  2. 构建大规模机器人预训练数据集,包含 100k 轨迹、200 万样本 ,增强模型泛化能力。

  3. 设计 视觉重构模块 ,使用扩散变换器(diffusion transformer)从噪声中重建目标区域。

  4. 在模拟与真实任务中验证了模型在 长时序任务未见目标 上的优越性能。

四、研究方法与原理

ReconVLA 的核心思路是:通过让模型重建任务相关的图像区域,引导其自动聚焦于关键目标,从而提升动作执行的精确性


模型包含动作生成视觉重构两个部分。输入为多视角图像和语言指令。视觉编码器提取图像特征,与大语言模型(LLM)交互后,一方面输出动作指令,另一方面输出重构 token(reconstructive tokens),用于引导一个扩散去噪过程(denoising process),重建目标区域的图像 token。

具体地,重构目标为**凝视区域 **,其 token 表示为 ,其中 是视觉 tokenizer(采用 VAE)。扩散过程从带噪声的 token 出发,在重构 token 的条件下,通过去噪器 预测噪声并恢复 。重构损失函数为:

整体训练目标为动作预测损失与视觉重构损失的加权和:

其中 是由大语言模型基于视觉 tokens 生成的重构 tokens, 是扩散时间步, 是加入的噪声。这一设计迫使模型在生成动作的同时,必须学习对目标区域的精细视觉表征,从而实现隐式的视觉注意力聚焦

五、实验设计与结果分析 模拟环境与数据集

实验使用 CALVIN 基准,包含 34 个任务和 4 种环境,评估模型在长时序任务中的表现。指标为子任务成功率平均完成长度

范式对比实验
比较三种视觉 grounding 范式:

  • 显式 grounding(EG) :使用 YOLOv11 检测并裁剪目标区域作为额外输入。

  • 链式思维 grounding(CG) :模型依次输出边界框坐标与动作。

  • 隐式 grounding(IG,即 ReconVLA) :不显式输出坐标,而是通过重建目标区域隐式学习注意力。


结果显示,IG 在各项任务中均取得最高成功率,尤其在 5/5 任务中达到 **64.1%**,显著优于 EG(50.2%)和 CG(0%)。

注意力可视化分析
可视化显示,基线模型的注意力分散,而 ReconVLA 能 精准聚焦于目标物体,如“将西瓜放入黄碗”任务中,注意力集中在西瓜上。


消融实验
消融实验验证了以下设计:

  • 预训练 :显著提升模型在未见环境中的泛化能力。

  • 重建凝视区域 :比重建整图更有效,引导模型关注目标。

  • 重构模块本身 :即使重建整图也能提升性能,但不如凝视区域精准。


与先进方法对比
在 ABC→D 和 ABCD→D 任务中,ReconVLA 在多项指标上超越生成式方法(如 GR-1、3D-VLA)和大规模 VLA 模型(如 OpenVLA、UniVLA),尤其在 长时序任务中表现突出。


真实世界实验


在四个真实任务(如叠碗、翻杯等)中,ReconVLA 在未见目标上仍保持高成功率,显著优于 OpenVLA 和 PD-VLA。


六、论文结论与评价 总结

ReconVLA 通过隐式视觉 grounding 机制,成功引导模型聚焦于任务关键区域,提升了机器人操作的精确性与泛化能力。在模拟与真实任务中均表现出色,尤其在长时序和未见目标任务中优势明显。

评价

该方法无需依赖外部检测模型,简化了系统结构,且通过视觉重构任务增强了模型对细节的感知能力。然而,该方法依赖于高质量凝视区域标注,且扩散去噪过程计算开销较大,可能限制其在实时系统中的部署。未来可探索更轻量的重构机制,或结合自监督方式减少对标注数据的依赖。

文章来源:CV炼丹术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人社部:月最低工资标准最高档超2000元

人社部:月最低工资标准最高档超2000元

澎湃新闻
2026-01-27 11:17:04
女子买的新冰箱碎掉了!厂家:换一台!商家:换不了!结局亮了

女子买的新冰箱碎掉了!厂家:换一台!商家:换不了!结局亮了

小柱解说游戏
2026-01-26 13:43:12
叙利亚总统沙拉:俄罗斯以某种方式参与了针对叙利亚人民的战争

叙利亚总统沙拉:俄罗斯以某种方式参与了针对叙利亚人民的战争

老马拉车莫少装
2026-01-27 17:22:31
万万没想到,折腾半生倾家荡产的牛群,被美国毕业的儿子这样对待

万万没想到,折腾半生倾家荡产的牛群,被美国毕业的儿子这样对待

大鱼简科
2026-01-27 11:31:55
顶流巨星:已退圈,宁肯做农民

顶流巨星:已退圈,宁肯做农民

视觉志
2026-01-27 10:34:11
1月26日起,旅客可乘高铁从白洋淀站直达北京西站

1月26日起,旅客可乘高铁从白洋淀站直达北京西站

新京报
2026-01-26 17:41:07
湖人队史首人!东契奇46+11+7+8三分拒逆转 单节20分一人战一队

湖人队史首人!东契奇46+11+7+8三分拒逆转 单节20分一人战一队

颜小白的篮球梦
2026-01-27 11:22:27
西甲疯狂夜!巴萨反超皇马登顶,马竞连胜冲刺榜首!

西甲疯狂夜!巴萨反超皇马登顶,马竞连胜冲刺榜首!

篮球看比赛
2026-01-27 12:50:14
蹉跎半生的樊振东父母没想到,儿子一则动态,让他们迎来无上荣光

蹉跎半生的樊振东父母没想到,儿子一则动态,让他们迎来无上荣光

以茶带书
2026-01-27 17:20:57
保时捷中国CEO回应“东安事件”新进展:车辆合格证将于本月内向已付清车款客户交付

保时捷中国CEO回应“东安事件”新进展:车辆合格证将于本月内向已付清车款客户交付

红星资本局
2026-01-26 19:33:08
贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

铭记历史呀
2026-01-26 19:39:13
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
云南“毒红薯”后续:10亿产业崩盘,无辜农户欲哭无泪

云南“毒红薯”后续:10亿产业崩盘,无辜农户欲哭无泪

过了法考的新闻人
2026-01-27 17:19:11
国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

阅微札记
2025-12-22 14:28:33
三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

墨兰史书
2026-01-26 08:20:07
11分钟,“地天板”!003042,三连涨停!

11分钟,“地天板”!003042,三连涨停!

证券时报
2026-01-27 13:03:03
别去撩中年女人:她不是猎物,是你惹不起的人间清醒

别去撩中年女人:她不是猎物,是你惹不起的人间清醒

青苹果sht
2026-01-13 03:43:56
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
还没完!退脏衣女记者后续:入职任职方式遭质疑,知情人透露更多

还没完!退脏衣女记者后续:入职任职方式遭质疑,知情人透露更多

阿纂看事
2026-01-26 10:03:51
腾讯宣布:春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

腾讯宣布:春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

每日经济新闻
2026-01-25 19:55:05
2026-01-27 20:08:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5325文章数 64599关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

"煤老虎"敛财数千万元 被批受贿"来者不拒、大小通吃"

头条要闻

"煤老虎"敛财数千万元 被批受贿"来者不拒、大小通吃"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

游戏
手机
艺术
数码
家居

《恶意不息》Steam单日销量突破5万份 正式版会有结局

手机要闻

能把牛仔裤戳破洞,用户吐槽三星Galaxy S24 Ultra直角边设计

艺术要闻

日本东京国立博物馆中的100幅宋画

数码要闻

Sharkoon旋刚247元推出入门级SKILLER SGB15键鼠套装

家居要闻

现代古典 中性又显韵味

无障碍浏览 进入关怀版