网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 最新录用|港科大等提出ReconVLA:利用视觉重构引导,刷新机器人操作精度!

0
分享至

一、导读

近年来,视觉-语言-动作模型(Vision-Language-Action,VLA)在机器人控制中展现出融合多模态理解与动作执行的能力。

然而,现有模型在感知图像时视觉注意力(visual attention)往往分散,难以聚焦于需要操作的目标物体,导致执行动作不准确。

为此,本文提出了一种重构式视觉-语言-动作模型 ReconVLA,通过引入一个隐式 grounding 机制,让模型在训练过程中学习重建图像中与任务相关的“凝视区域(gaze region)”,从而引导其更准确地关注目标物体。

该方法在模拟和真实机器人任务中均表现出更精准的操作能力和良好的泛化性能。

二、论文基本信息


  • 论文标题:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

  • 作者与单位:Wenxuan Song 等,来自香港科技大学(广州)、西湖大学、浙江大学、莫纳什大学等机构

  • 来源:AAAI 2026

  • 代码链接: https://github.com/OpenHelix-Team/ReconVLA

三、主要贡献与创新
  1. 提出 ReconVLA ,一种基于 隐式视觉 grounding 的 VLA 模型,通过重建凝视区域提升视觉注意力精度。

  2. 构建大规模机器人预训练数据集,包含 100k 轨迹、200 万样本 ,增强模型泛化能力。

  3. 设计 视觉重构模块 ,使用扩散变换器(diffusion transformer)从噪声中重建目标区域。

  4. 在模拟与真实任务中验证了模型在 长时序任务未见目标 上的优越性能。

四、研究方法与原理

ReconVLA 的核心思路是:通过让模型重建任务相关的图像区域,引导其自动聚焦于关键目标,从而提升动作执行的精确性


模型包含动作生成视觉重构两个部分。输入为多视角图像和语言指令。视觉编码器提取图像特征,与大语言模型(LLM)交互后,一方面输出动作指令,另一方面输出重构 token(reconstructive tokens),用于引导一个扩散去噪过程(denoising process),重建目标区域的图像 token。

具体地,重构目标为**凝视区域 **,其 token 表示为 ,其中 是视觉 tokenizer(采用 VAE)。扩散过程从带噪声的 token 出发,在重构 token 的条件下,通过去噪器 预测噪声并恢复 。重构损失函数为:

整体训练目标为动作预测损失与视觉重构损失的加权和:

其中 是由大语言模型基于视觉 tokens 生成的重构 tokens, 是扩散时间步, 是加入的噪声。这一设计迫使模型在生成动作的同时,必须学习对目标区域的精细视觉表征,从而实现隐式的视觉注意力聚焦

五、实验设计与结果分析 模拟环境与数据集

实验使用 CALVIN 基准,包含 34 个任务和 4 种环境,评估模型在长时序任务中的表现。指标为子任务成功率平均完成长度

范式对比实验
比较三种视觉 grounding 范式:

  • 显式 grounding(EG) :使用 YOLOv11 检测并裁剪目标区域作为额外输入。

  • 链式思维 grounding(CG) :模型依次输出边界框坐标与动作。

  • 隐式 grounding(IG,即 ReconVLA) :不显式输出坐标,而是通过重建目标区域隐式学习注意力。


结果显示,IG 在各项任务中均取得最高成功率,尤其在 5/5 任务中达到 **64.1%**,显著优于 EG(50.2%)和 CG(0%)。

注意力可视化分析
可视化显示,基线模型的注意力分散,而 ReconVLA 能 精准聚焦于目标物体,如“将西瓜放入黄碗”任务中,注意力集中在西瓜上。


消融实验
消融实验验证了以下设计:

  • 预训练 :显著提升模型在未见环境中的泛化能力。

  • 重建凝视区域 :比重建整图更有效,引导模型关注目标。

  • 重构模块本身 :即使重建整图也能提升性能,但不如凝视区域精准。


与先进方法对比
在 ABC→D 和 ABCD→D 任务中,ReconVLA 在多项指标上超越生成式方法(如 GR-1、3D-VLA)和大规模 VLA 模型(如 OpenVLA、UniVLA),尤其在 长时序任务中表现突出。


真实世界实验


在四个真实任务(如叠碗、翻杯等)中,ReconVLA 在未见目标上仍保持高成功率,显著优于 OpenVLA 和 PD-VLA。


六、论文结论与评价 总结

ReconVLA 通过隐式视觉 grounding 机制,成功引导模型聚焦于任务关键区域,提升了机器人操作的精确性与泛化能力。在模拟与真实任务中均表现出色,尤其在长时序和未见目标任务中优势明显。

评价

该方法无需依赖外部检测模型,简化了系统结构,且通过视觉重构任务增强了模型对细节的感知能力。然而,该方法依赖于高质量凝视区域标注,且扩散去噪过程计算开销较大,可能限制其在实时系统中的部署。未来可探索更轻量的重构机制,或结合自监督方式减少对标注数据的依赖。

文章来源:CV炼丹术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CTO任职半年遭OpenAI撬墙角,英特尔震动,CEO陈立武被迫亲自接管AI!

CTO任职半年遭OpenAI撬墙角,英特尔震动,CEO陈立武被迫亲自接管AI!

CSDN
2025-11-11 19:08:45
超越科比,坎宁安打铁31次创58年来NBA单场打铁数新高

超越科比,坎宁安打铁31次创58年来NBA单场打铁数新高

懂球帝
2025-11-11 12:11:13
霍启刚没想到,自己辛辛苦苦娶回家的郭晶晶,一打扮就怕她被抢走

霍启刚没想到,自己辛辛苦苦娶回家的郭晶晶,一打扮就怕她被抢走

花心电影
2025-09-15 22:06:31
王毅最新照令人心疼:人明显老了,谁能接替他成为下一任外长?

王毅最新照令人心疼:人明显老了,谁能接替他成为下一任外长?

男女那点事儿儿
2025-11-11 15:24:28
人类有多渺小?已飞252亿公里的飞船,最后传回的照片令人敬畏!

人类有多渺小?已飞252亿公里的飞船,最后传回的照片令人敬畏!

火星一号
2025-11-10 13:53:58
29岁女子要嫁给亲姐夫,丈母娘力挺:肥水不流外人田,不想换女婿

29岁女子要嫁给亲姐夫,丈母娘力挺:肥水不流外人田,不想换女婿

辣媒专栏记录
2025-10-27 08:54:46
山姆始料未及,阿里味被抵制,风向变了,中产想要的,阿里给不了

山姆始料未及,阿里味被抵制,风向变了,中产想要的,阿里给不了

王新喜
2025-11-10 11:36:16
长沙公园惊现 “老年服务圈”!低价刚需服务,姑娘边服务边唠嗑

长沙公园惊现 “老年服务圈”!低价刚需服务,姑娘边服务边唠嗑

辉哥说动漫
2025-11-11 10:41:43
国民党立委柯志恩在高雄市丢脸了,四位民进党候选人都比她民调高

国民党立委柯志恩在高雄市丢脸了,四位民进党候选人都比她民调高

总在茶余后
2025-11-12 01:03:46
最新出炉!“蟹王”重1斤2两,“蟹后”重9两!上海大闸蟹首夺“蟹后”!

最新出炉!“蟹王”重1斤2两,“蟹后”重9两!上海大闸蟹首夺“蟹后”!

上观新闻
2025-11-11 16:14:07
德天空:阿森纳再次收到关于特罗萨德的询价,但双方有意续约

德天空:阿森纳再次收到关于特罗萨德的询价,但双方有意续约

懂球帝
2025-11-12 04:59:13
李连杰最近逆生长,容颜从老到年轻给普通人哪些启示,放松很重要

李连杰最近逆生长,容颜从老到年轻给普通人哪些启示,放松很重要

呼吸科大夫胡洋
2025-11-09 13:10:15
80 万救命钱逼跪海俊杰!表姐陈慧珊身家过亿仍沉默,换肝剩两天

80 万救命钱逼跪海俊杰!表姐陈慧珊身家过亿仍沉默,换肝剩两天

观察鉴娱
2025-11-11 09:45:12
破500亿元,微短剧首度“干掉”电影票房

破500亿元,微短剧首度“干掉”电影票房

每日经济新闻
2025-11-11 19:31:09
中国女导演指控“鹰眼”对其性骚扰!“发送大量露骨照片”

中国女导演指控“鹰眼”对其性骚扰!“发送大量露骨照片”

都市快报橙柿互动
2025-11-09 10:11:12
中国人死亡19万,比美军多5倍,好意思说胜利吗?金将军这样回答

中国人死亡19万,比美军多5倍,好意思说胜利吗?金将军这样回答

混沌录
2025-10-29 20:22:14
山东又一地宣布主城区免费乘公交!

山东又一地宣布主城区免费乘公交!

闪电新闻
2025-11-11 16:58:13
找到感觉?弗拉格15中9砍26分9板4助2断1帽,创生涯得分新高

找到感觉?弗拉格15中9砍26分9板4助2断1帽,创生涯得分新高

懂球帝
2025-11-11 12:21:16
“世界最大驾校”翻车了:董事长被捕、股价暴跌,30年神话崩塌!

“世界最大驾校”翻车了:董事长被捕、股价暴跌,30年神话崩塌!

青眼财经
2025-11-09 20:09:54
宁可退钱也不打!三名留洋球员拒绝辽宁队,无缘全运会

宁可退钱也不打!三名留洋球员拒绝辽宁队,无缘全运会

德译洋洋
2025-11-11 12:35:48
2025-11-12 07:11:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5228文章数 64596关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

家居
亲子
时尚
游戏
本地

家居要闻

国美学子 打造筑梦空间

亲子要闻

300+小创客登场!深圳罗湖大创客节连续三年设幼儿园组

舒淇,东亚女孩的恨海情天

《无尽传说 Remastered》评测:前进"/> 主站 商城 论坛 自运营 登录 注册 《无尽传说 Remastered》评测:前进 星河 2025-...

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

无障碍浏览 进入关怀版