网易首页 > 网易号 > 正文 申请入驻

ReconVLA:具身智能研究首次获得AI顶级会议最佳论文奖

0
分享至



在长期以来的 AI 研究版图中,具身智能虽然在机器人操作、自动化系统与现实应用中至关重要,却常被视为「系统工程驱动」的研究方向,鲜少被认为能够在 AI 核心建模范式上产生决定性影响。

而 ReconVLA 获得 AAAIOutstandingPaper Awards,释放了一个清晰而重要的信号:让智能体在真实世界中「看、想、做」的能力,已经成为人工智能研究的核心问题之一。

这是具身智能(Embodied Intelligence / Vision-Language-Action)方向历史上,首次获得 AI 顶级会议 Best Paper 的研究工作。这是一次真正意义上的 community-level 认可:不仅是对某一个模型、某一项指标的认可,更是对具身智能作为通用智能核心范式之一的肯定。



  • 论文标题:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
  • 论文地址:https://arxiv.org/abs/2508.10333
  • 论文代码:https://github.com/Chowzy069/Reconvla

VLA 模型关键瓶颈:机器人真「看准」了吗?



近年来,Vision-Language-Action(VLA)模型在多任务学习与长时序操作中取得了显著进展。然而,我们在大量实验中发现,一个基础但被长期忽视的问题严重制约了其性能上限:视觉注意力难以稳定、精准地聚焦于任务相关目标。

以指令「将蓝色积木放到粉色积木上」为例,模型需要在复杂背景中持续锁定「蓝色积木」和「粉色积木」。但现实中,许多 VLA 模型的视觉注意力呈现为近似均匀分布,不同于人类行为专注于目标物体,VLA 模型容易被无关物体或背景干扰,从而导致抓取或放置失败。

已有工作主要通过以下方式尝试缓解这一问题:

  • 显式裁剪或检测目标区域(Explicit Grounding)
  • 预测目标边界框作为中间输出(COT Grounding)

然而,这些方法并未从根本上改变模型自身的视觉表征与注意力分配机制,提升效果有限。

ReconVLA:重建式隐式视觉定位的新范式


为解决上述瓶颈,我们提出ReconVLA,一种重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

不要求模型显式输出「看哪里」,而是通过「能否重建目标区域」,来约束模型必须学会精准关注关键物体。

在 ReconVLA 中,动作预测不再是唯一目标。在生成动作表征的同时,模型还需要完成一项辅助任务:

重建当前时刻所「凝视」的目标区域 ----- 我们称之为 Gaze Region。

这一重建过程由轻量级扩散变换器(Diffusion Transformer)完成,并在潜在空间中进行高保真复原。由于要最小化重建误差,模型被迫在其内部视觉表示中编码关于目标物体的精细语义与结构信息,从而在注意力层面实现隐式而稳定的对齐。

这一机制更接近人类的视觉凝视行为,而非依赖外部检测器或符号化坐标监督。



方法概览


ReconVLA 的整体框架由两个协同分支组成:

1. 动作预测分支: 模型以多视角图像、自然语言指令与机器人本体状态为输入,生成动作 token,直接驱动机器人执行操作。

2. 视觉重建分支: 利用冻结的视觉 tokenizer,将指令关注的目标区域(Gaze region)编码为高保真潜在 token。主干网络额外输出同维度的重建 token,并以此作为条件,引导扩散去噪过程逐步复原目标区域的视觉表示。

重建损失在像素与潜在空间层面为模型提供了隐式监督,使视觉表征与动作决策在训练过程中紧密耦合。



大规模重建预训练


为赋予 ReconVLA 稳定的视觉重建与泛化能力,我们构建了一个大规模机器人预训练数据集:

  • 数据规模:超过 10 万条交互轨迹,约 200 万张图像。
  • 数据来源:BridgeData V2、LIBERO、CALVIN 等开源机器人数据集。
  • 自动化标注:利用微调后的 Grounding DINO 或 Yolo 等方式,从原始图像中自动生成指令对应的目标物体区域(Gaze region),用于重建监督。

该预训练过程不依赖动作标签,却显著提升了模型在视觉重建、隐式 Grounding 以及跨场景泛化方面的能力,并为未来扩展至互联网级视频数据奠定了一定基础。

实验结果



在 CALVIN 仿真基准上,ReconVLA 在长时序任务中显著优于现有方法:

  • ABC→D 泛化任务:平均完成长度达到3.95,全面领先同期所有对比方法。
  • ABCD→D 长程任务:平均完成长度为4.23,完整任务成功率达70.5%。

值得一提的是,在 CALVIN 极具挑战的长程任务「stack block」上我们的方法成功率达到 79.5%,远高于 Baseline 的 59.3%,这说明我们的局部重建作为隐式监督的方法可以在复杂长程任务中实现更灵活的运动规划。



在真实机器人实验中,我们基于 AgileX PiPer 六自由度机械臂,测试了叠碗、放水果、翻杯与清理餐桌等任务。ReconVLA 在所有任务上均显著优于 OpenVLA 与 PD-VLA,并在未见物体条件下仍保持 40% 以上的成功率,展现出强大的视觉泛化能力。



对比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上获得了远高于前两者的成功率,由此可分析出:

仅用精细化的目标区域作为模型隐式监督可以实现更加精确的注意力,更高的任务成功率以及更简单的模型夹构。



而消融实验表明:

1. 全图重建仍然由于仅有动作监督的基线,因为全图重建提升了模型的全局感知和理解能力。但由于视觉冗余使得在未知环境下难以展现更好的效果。

2. 重建目标区域(Gaze region)具有显著效果,这个机制使得模型专注于目标物体,避免被无关背景干扰。

3. 大规模预训练显著提升了模型在视觉重建,隐式 Grounding 及跨场景泛化的能力。

总结


ReconVLA 的核心贡献并非引入更复杂的结构,而是重新审视了一个基础问题:机器人是否真正理解了它正在注视的世界。

通过重建式隐式监督,我们为 VLA 模型提供了一种更自然、更高效的视觉对齐机制,使机器人在复杂环境中做到「看得准、动得稳」。

我们期待这一工作能够推动具身智能从经验驱动的系统设计,迈向更加扎实、可扩展的通用智能研究范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
父死女偿!一银行放贷30万,独生女破釜沉舟,彻底给银行整不会了

父死女偿!一银行放贷30万,独生女破釜沉舟,彻底给银行整不会了

火山诗话
2026-01-25 12:21:40
陈毅之子陈丹淮求学时遇同学攀比家世,被问及父亲情况,他回应:我父亲只是个处长

陈毅之子陈丹淮求学时遇同学攀比家世,被问及父亲情况,他回应:我父亲只是个处长

文史明鉴
2026-01-26 18:00:13
荣耀高管评iPhoneAir降价:将彻底死透!魅族前高管看不下去怒怼

荣耀高管评iPhoneAir降价:将彻底死透!魅族前高管看不下去怒怼

柴狗夫斯基
2026-01-26 08:50:27
9.6万,特斯拉的车主懵了...

9.6万,特斯拉的车主懵了...

放毒
2026-01-26 17:28:57
委内瑞拉代总统受够了:美国应停止发号施令

委内瑞拉代总统受够了:美国应停止发号施令

极目新闻
2026-01-26 17:30:57
重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

夜白侃球
2026-01-26 20:29:44
房产证写谁的名字无意义,1月以后都已不重要?这4条才是分房关键

房产证写谁的名字无意义,1月以后都已不重要?这4条才是分房关键

复转这些年
2026-01-24 23:58:08
期末成绩一出,一大批家长都在托关系搞这件事

期末成绩一出,一大批家长都在托关系搞这件事

三个妈妈六个娃
2026-01-25 21:06:29
张雨绮假双胞胎骗局被拆穿?疑似在美国代孕,亲身产子凑数

张雨绮假双胞胎骗局被拆穿?疑似在美国代孕,亲身产子凑数

社会酱
2026-01-26 17:51:52
雷军无奈宣布:全部下架!

雷军无奈宣布:全部下架!

电动知家
2026-01-25 15:31:25
哈梅内伊为什么慌了

哈梅内伊为什么慌了

臧启玉律师
2026-01-26 11:13:42
外交部回应美国威胁对加拿大进口商品征收100%关税

外交部回应美国威胁对加拿大进口商品征收100%关税

界面新闻
2026-01-26 15:24:34
退脏衣女记者社死!嚣张丢了铁饭碗,商家硬刚到底,势力大也没用

退脏衣女记者社死!嚣张丢了铁饭碗,商家硬刚到底,势力大也没用

离离言几许
2026-01-26 10:48:59
2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

风向观察
2026-01-25 12:07:51
伊朗对国内民众的残酷镇压,成为了自己的催命符

伊朗对国内民众的残酷镇压,成为了自己的催命符

林中木白
2026-01-26 16:58:23
三流州长的达沃斯幻觉:纽森以为自己重要,遭现实直接打脸

三流州长的达沃斯幻觉:纽森以为自己重要,遭现实直接打脸

斌闻天下
2026-01-26 07:04:40
德国防长要求特朗普就北约盟友“躲开前线”言论道歉

德国防长要求特朗普就北约盟友“躲开前线”言论道歉

环球网资讯
2026-01-26 20:20:12
李湘被英国相关部门调查,涉嫌用艺术品国际洗钱,王诗龄已经休学

李湘被英国相关部门调查,涉嫌用艺术品国际洗钱,王诗龄已经休学

花哥扒娱乐
2026-01-25 17:10:22
雀巢奶粉涉菌污染全球召回,瑞士称问题原料来自中国供应商,系全球三大ARA生产商之一

雀巢奶粉涉菌污染全球召回,瑞士称问题原料来自中国供应商,系全球三大ARA生产商之一

药识局
2026-01-25 13:18:15
重兵包抄伊朗,特朗普要打了?普京已通告俄将出手,中方也有行动

重兵包抄伊朗,特朗普要打了?普京已通告俄将出手,中方也有行动

科普100克克
2026-01-24 18:11:51
2026-01-26 22:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142549关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

教育
时尚
房产
健康
本地

教育要闻

2026年中国教育改革或推出普及高中!留学萧条期真的来了?

绿色+棕色、蓝色+棕色,这3组配色高级又好看!

房产要闻

突发!三亚官宣,调整安居房政策!

耳石脱落为何让人天旋地转+恶心?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版