首获AAAI杰出论文奖，这个具身团队让机器人学会像人一样凝视目标|动作|视觉|预训练|aaai|真实世界

分享至

来源：市场资讯

（来源：DeepTech深科技）

想象这样一个场景：一个机器人面前的桌上摆着一堆物体，其中包含红色积木和蓝色积木，此时，如果给出让它“把红色积木叠到蓝色积木上”的指令，它是否能顺利执行？

（来源：Nano Banana Pro）

对人类来说，这个任务听起来十分简单。因为你需要做的只是眼睛盯着红色积木，伸手拿起，然后锁定蓝色积木，放到上面就大功告成。但对当前大多数机器人而言，事情并非如此。在很多时候，机器人的任务成功率并不稳定，它有可能径直去操纵其他物体，而非目标物体。

为什么如此简单的任务，对于机器人来说却无法稳定完成呢？

这是由于当前主流的 VLA 模型（Vision-Language-Action Model，视觉-语言-动作模型）在执行抓取任务时，视觉注意力往往呈弥散分布。也就是说，模型虽能输出动作序列，但其内部注意力并未真正聚焦于指令所指的目标物体（如红色积木），而是分散在图像多个区域。

这种注意力错位直接导致机器人的操作失误，例如容易抓取错误物体，或在多物体环境中定位不准。

为了解决这一问题，来自香港科技大学（广州）与西湖大学等高校的一支联合研究团队，在对主流 VLA 模型进行系统分析后，提出了 ReconVLA（重建式视觉-语言-动作模型）。

在这个模型中，他们创新性地引入了一种名为"隐式定位"（Implicit Grounding）的训练范式。不在推理阶段额外加模块，不输出边界框，而是在训练过程中，通过让模型重建目标操作区域的图像，迫使它在视觉编码阶段就把注意力集中到正确的地方。

图 | 团队论文（来源：arXiv）

据悉，该工作于上月荣获 AAAI 国际先进人工智能协会 2026 的杰出论文奖（Outstanding Paper Award）。

论文第一作者宋文轩告诉 DeepTech，当前 VLA 模型的主流架构，通常以一个预训练好的 VLM 为主干，再接上一个动作生成头（action head），用来输出机器人的控制信号。这个架构里，VLM 负责“看”和“理解”，动作头负责“做”。

图 | 宋文轩（来源：被访者）

问题在于，VLM 最初是为图像理解和对话任务设计的，它学到的视觉表征（visual representation）侧重语义层面。比如识别一张图里有什么东西、它们之间的关系。但对机器人操控来说，真正重要的不只是“图里有什么”，而是“我该去操作哪里”，这涉及到操作可供性（affordance）的感知，是一种 VLM 原生训练目标中并不包含的能力。

另一位团队核心成员之一丁鹏翔补充，通用视觉模型和具身控制任务之间存在显著的领域差异（domain gap）。即便 VLM 在图像理解上极为强大，它也未必能自然迁移到机器人场景。这种能力缺失直接表现为视觉注意力的高度弥散。

图 | 丁鹏翔（来源：受访者）

在简单场景下，注意力分散或许影响不大。如果桌上只有一个物体，就算注意力散一点，模型也大概率能抓对。但一旦场景变得杂乱，比如桌面上摆了五六样东西，麻烦就来了。

团队实验表明，此时，“模型往往看到物体就抓”。只要腕部相机视野中出现可抓取目标，模型就倾向于执行抓取动作，至于抓的是不是人类期望的那个，它并不总是关心。抓取动作的成功率可能很高，但抓取的正确率则是另一回事。这说明模型完成了动作层面的任务，却没有与人类意图对齐（intent alignment）。

另一个更隐蔽问题出现在长程任务（long-horizon task）中。所谓长程任务，就是需要多个步骤依次完成的操作链。因为即使每一步哪怕只有微小偏差，误差会逐步累积，到后面几步时，系统状态可能已经偏离了训练数据的分布。丁鹏翔举了一个直观的数字：即便单步成功率高达 99%，连续执行 100 步后的整体成功率也只剩约 36.6%。

那么，“隐式定位”到底是什么意思？具体又该如何实现？丁鹏翔给了 DeepTech 类比：人类在执行精细操作时，虽然看到的是整个场景，但真正聚焦的只有一小片区域。如果指令是“拿杯子”，哪怕桌上放了十样东西，人类的视觉焦点会自动锁定在杯子上，周围的一切都变得模糊。这种行为在视觉科学中叫做“凝视”（gaze）。

ReconVLA 借鉴了这一机制。在训练阶段，除了常规的动作预测损失之外，模型还需要完成一个辅助任务：重建当前图像中与操作目标对应的区域，即所谓的“凝视区域”（gaze region）。

（来源：论文）

具体来说，模型的视觉输出 token（称为"重建 token"，reconstructive token）会被输入到一个轻量级的扩散变压器（diffusion transformer）中，该扩散模块的目标是从噪声中恢复出凝视区域的视觉特征。如果模型在编码阶段没有把注意力放在目标区域上，它输出的重建 token 就不会包含足够的细粒度信息，扩散模块就无法完成重建，损失函数就会惩罚它。

这形成了一个流畅的反馈回路：想要完成重建 → 必须关注目标 → 关注目标后视觉表征更精确 → 动作预测更准。整个过程中，没有任何显式的边界框输出，也没有外部检测模型参与推理。重建模块只在训练时存在，推理时被完全移除。这意味着 ReconVLA 在部署阶段的推理速度与常规 VLA 模型完全一致，不引入任何额外延迟。

这和此前的视觉定位方法有什么不同？

此前，视觉定位主要依赖于两种范式。一种是"显式定位"（Explicit Grounding），比如 RoboGround 和 VIP 等工作，它们使用外部检测模型（如 YOLO 或 LISA）先把目标物体裁剪出来，再把裁剪图像和原图一起输入 VLA。这种方法确实提供了更聚焦的视觉信息，但它依赖外部模型的精度，且两张图像的简单拼接引入了信息冗余。

另一种是"思维链定位"（CoT Grounding），如 ECoT 和 GraspVLA，让模型先输出目标的边界框坐标，再输出动作。这种方式在理论上很漂亮，但实验结果显示它甚至不如基线。在 CALVIN 基准测试中，CoT 方式的 5 步连续任务成功率几乎为零。原因可能在于，坐标形式的定位信息对 VLA 模型来说并不是一种高效的引导信号，同时要输出精确坐标和精确动作值，给训练带来了额外负担。

图 | 不同范式之间的概念比较（来源：论文）

相比之下，ReconVLA 的隐式定位在同一基准上取得了最高成绩。

在 CALVIN ABC→D 测试（要求模型在未见过的环境 D 中执行 5 步连续任务）中，ReconVLA 在第 5 个子任务上达到了 64.1% 的成功率，而基线模型为 49.0%，显式定位方法为 50.2%，提升约 15 个百分点。在更具挑战性的精细操作任务"积木堆叠"（stack block）中，基线成功率仅 59.3%，ReconVLA 达到 79.5%，提升超过 20 个百分点。

图 | 不同范式之间的测试分数对比（来源：论文）

为了让重建能力具备泛化性，团队还构建了一个大规模预训练数据集，包含超过 10 万条机器人操作轨迹和 200 万个数据样本。数据来源包括开源的 BridgeData V2 以及 LIBERO、CALVIN 两个仿真环境数据集。

凝视区域的标注借助了 Grounding DINO 这一开放词汇检测模型（open-vocabulary detector），大部分数据可以通过零样本（zero-shot）方式直接标注，对于机器人场景中一些较为罕见或复杂的物体，团队则进行了定制化微调。消融实验证实，预训练阶段对泛化能力的提升是显著的。移除预训练后，5 步连续任务的最终成功率从 64.1% 下降至 58.2%。

真实世界的实验进一步验证了这一方法的可行性。

团队使用一台 6 自由度的 AgileX PiPer 机械臂，配合两个深度相机（分别作为基座视角和手部视角），在四个代表性任务上进行了测试：将水果放入碗中、叠碗、翻杯子、整理桌面。在每个任务中，ReconVLA 都取得了最高成功率。

特别值得注意的是在“未见物体”（unseen objects）的测试中，当目标物体不在训练数据中时，对比方法 OpenVLA 和 PD-VLA 的成功率接近零，而 ReconVLA 仍能成功定位目标并完成操作，展现出其视觉泛化能力。

图 | 四个代表性任务的真实世界设置（来源：论文）

当然，任何方法都不是完美的。宋文轩向 DeepTech 坦言，ReconVLA 的主要额外成本在训练阶段——引入重建目标意味着更多的计算开销，尽管团队已经对扩散模块做了轻量化设计来控制这部分消耗。丁鹏翔指出了另一层局限：当前建模仍然主要基于二维视觉空间，在需要深度信息和三维几何约束的高精度任务中，即便二维定位更加精确，空间操作精度仍然可能受限。

团队透露，他们已在后续工作中开始探索三维感知建模（3D-aware modeling），相关成果已提交至近期的学术会议。此外，力觉感知和力控信号等多模态信息目前也尚未纳入框架，但从方法结构上看，这些模态完全可以通过同样的隐式建模机制整合进来。

谈到具身智能的落地前景，丁鹏翔的看法颇为务实。他认为 VLA 不必急于落地到某一个具体的垂直场景才算有价值。类比早期的 ChatGPT，GPT-3 发布时并没有立即嵌入某个特定行业流程，但它显著改变了写作和内容创作的效率。

VLA 的价值可能也会经历类似的“两步走”。第一步是降低部署成本。过去每个工厂任务都需要独立建模，如果有一个足够强的基础模型，企业只需少量微调就能完成适配；第二步才是结合 Agent 系统构建具体场景的闭环工作流。

他还补充说，他们曾将经过通用训练的模型部署到实际工业环境中测试拧螺丝、插接零部件等任务，结果显示只要基座模型足够稳定，下游任务性能就会显著提升。他认为短中期更具潜力的场景包括半结构化工业装配、轻工业精细操作以及商业服务机器人（如饮品制作）。这些场景的共同特点是操作链条明确、精度要求高、对重复性稳定性有刚需。

除研究外，这支团队还共同创建了一个名为 OpenHelix 的开源社区，目前已持续开源十余个项目，累计获得约 3,600 个 GitHub 星标。在资源有限的条件下，他们选择了一条"高效与聚焦"的路线。不追求数百张 GPU 的大规模训练和高度工程化的演示，而是专注于具有方法论洞见的研究方向。

他们相信，只有通过开放共享，研究成果才能真正落地到更多从业者手中。除了 ReconVLA 的后续迭代，团队还在推进触觉与力反馈、双臂协作等方向的研究，目标是拓宽 VLA 的能力边界，而不仅仅停留在单一展示型应用上。

https://arxiv.org/html/2508.10333v1

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.