网易首页 > 网易号 > 正文 申请入驻

首获AAAI杰出论文奖,这个具身团队让机器人学会像人一样凝视目标

0
分享至

想象这样一个场景:一个机器人面前的桌上摆着一堆物体,其中包含红色积木和蓝色积木,此时,如果给出让它“把红色积木叠到蓝色积木上”的指令,它是否能顺利执行?


(来源:Nano Banana Pro)

对人类来说,这个任务听起来十分简单。因为你需要做的只是眼睛盯着红色积木,伸手拿起,然后锁定蓝色积木,放到上面就大功告成。但对当前大多数机器人而言,事情并非如此。在很多时候,机器人的任务成功率并不稳定,它有可能径直去操纵其他物体,而非目标物体。

为什么如此简单的任务,对于机器人来说却无法稳定完成呢?

这是由于当前主流的 VLA 模型(Vision-Language-Action Model,视觉-语言-动作模型)在执行抓取任务时,视觉注意力往往呈弥散分布。也就是说,模型虽能输出动作序列,但其内部注意力并未真正聚焦于指令所指的目标物体(如红色积木),而是分散在图像多个区域。

这种注意力错位直接导致机器人的操作失误,例如容易抓取错误物体,或在多物体环境中定位不准。

为了解决这一问题,来自香港科技大学(广州)与西湖大学等高校的一支联合研究团队,在对主流 VLA 模型进行系统分析后,提出了 ReconVLA(重建式视觉-语言-动作模型)。

在这个模型中,他们创新性地引入了一种名为"隐式定位"(Implicit Grounding)的训练范式。不在推理阶段额外加模块,不输出边界框,而是在训练过程中,通过让模型重建目标操作区域的图像,迫使它在视觉编码阶段就把注意力集中到正确的地方。


图 | 团队论文(来源:arXiv)

据悉,该工作于上月荣获 AAAI 国际先进人工智能协会 2026 的杰出论文奖(Outstanding Paper Award)。

论文第一作者宋文轩告诉 DeepTech,当前 VLA 模型的主流架构,通常以一个预训练好的 VLM 为主干,再接上一个动作生成头(action head),用来输出机器人的控制信号。这个架构里,VLM 负责“看”和“理解”,动作头负责“做”。


图 | 宋文轩 (来源:被访者)

问题在于,VLM 最初是为图像理解和对话任务设计的,它学到的视觉表征(visual representation)侧重语义层面。比如识别一张图里有什么东西、它们之间的关系。但对机器人操控来说,真正重要的不只是“图里有什么”,而是“我该去操作哪里”,这涉及到操作可供性(affordance)的感知,是一种 VLM 原生训练目标中并不包含的能力。

另一位团队核心成员之一丁鹏翔补充,通用视觉模型和具身控制任务之间存在显著的领域差异(domain gap)。即便 VLM 在图像理解上极为强大,它也未必能自然迁移到机器人场景。这种能力缺失直接表现为视觉注意力的高度弥散。


图 | 丁鹏翔 (来源:受访者)

在简单场景下,注意力分散或许影响不大。如果桌上只有一个物体,就算注意力散一点,模型也大概率能抓对。但一旦场景变得杂乱,比如桌面上摆了五六样东西,麻烦就来了。

团队实验表明,此时,“模型往往看到物体就抓”。只要腕部相机视野中出现可抓取目标,模型就倾向于执行抓取动作,至于抓的是不是人类期望的那个,它并不总是关心。抓取动作的成功率可能很高,但抓取的正确率则是另一回事。这说明模型完成了动作层面的任务,却没有与人类意图对齐(intent alignment)。

另一个更隐蔽问题出现在长程任务(long-horizon task)中。所谓长程任务,就是需要多个步骤依次完成的操作链。因为即使每一步哪怕只有微小偏差,误差会逐步累积,到后面几步时,系统状态可能已经偏离了训练数据的分布。丁鹏翔举了一个直观的数字:即便单步成功率高达 99%,连续执行 100 步后的整体成功率也只剩约 36.6%。

那么,“隐式定位”到底是什么意思?具体又该如何实现?丁鹏翔给了 DeepTech 类比:人类在执行精细操作时,虽然看到的是整个场景,但真正聚焦的只有一小片区域。如果指令是“拿杯子”,哪怕桌上放了十样东西,人类的视觉焦点会自动锁定在杯子上,周围的一切都变得模糊。这种行为在视觉科学中叫做“凝视”(gaze)。

ReconVLA 借鉴了这一机制。在训练阶段,除了常规的动作预测损失之外,模型还需要完成一个辅助任务:重建当前图像中与操作目标对应的区域,即所谓的“凝视区域”(gaze region)。


(来源:论文)

具体来说,模型的视觉输出 token(称为"重建 token",reconstructive token)会被输入到一个轻量级的扩散变压器(diffusion transformer)中,该扩散模块的目标是从噪声中恢复出凝视区域的视觉特征。如果模型在编码阶段没有把注意力放在目标区域上,它输出的重建 token 就不会包含足够的细粒度信息,扩散模块就无法完成重建,损失函数就会惩罚它。

这形成了一个流畅的反馈回路:想要完成重建 → 必须关注目标 → 关注目标后视觉表征更精确 → 动作预测更准。整个过程中,没有任何显式的边界框输出,也没有外部检测模型参与推理。重建模块只在训练时存在,推理时被完全移除。这意味着 ReconVLA 在部署阶段的推理速度与常规 VLA 模型完全一致,不引入任何额外延迟。

这和此前的视觉定位方法有什么不同?

此前,视觉定位主要依赖于两种范式。一种是"显式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它们使用外部检测模型(如 YOLO 或 LISA)先把目标物体裁剪出来,再把裁剪图像和原图一起输入 VLA。这种方法确实提供了更聚焦的视觉信息,但它依赖外部模型的精度,且两张图像的简单拼接引入了信息冗余。

另一种是"思维链定位"(CoT Grounding),如 ECoT 和 GraspVLA,让模型先输出目标的边界框坐标,再输出动作。这种方式在理论上很漂亮,但实验结果显示它甚至不如基线。在 CALVIN 基准测试中,CoT 方式的 5 步连续任务成功率几乎为零。原因可能在于,坐标形式的定位信息对 VLA 模型来说并不是一种高效的引导信号,同时要输出精确坐标和精确动作值,给训练带来了额外负担。


图 | 不同范式之间的概念比较(来源:论文)

相比之下,ReconVLA 的隐式定位在同一基准上取得了最高成绩。

在 CALVIN ABC→D 测试(要求模型在未见过的环境 D 中执行 5 步连续任务)中,ReconVLA 在第 5 个子任务上达到了 64.1% 的成功率,而基线模型为 49.0%,显式定位方法为 50.2%,提升约 15 个百分点。在更具挑战性的精细操作任务"积木堆叠"(stack block)中,基线成功率仅 59.3%,ReconVLA 达到 79.5%,提升超过 20 个百分点。


图 | 不同范式之间的测试分数对比(来源:论文)

为了让重建能力具备泛化性,团队还构建了一个大规模预训练数据集,包含超过 10 万条机器人操作轨迹和 200 万个数据样本。数据来源包括开源的 BridgeData V2 以及 LIBERO、CALVIN 两个仿真环境数据集。

凝视区域的标注借助了 Grounding DINO 这一开放词汇检测模型(open-vocabulary detector),大部分数据可以通过零样本(zero-shot)方式直接标注,对于机器人场景中一些较为罕见或复杂的物体,团队则进行了定制化微调。消融实验证实,预训练阶段对泛化能力的提升是显著的。移除预训练后,5 步连续任务的最终成功率从 64.1% 下降至 58.2%。

真实世界的实验进一步验证了这一方法的可行性。

团队使用一台 6 自由度的 AgileX PiPer 机械臂,配合两个深度相机(分别作为基座视角和手部视角),在四个代表性任务上进行了测试:将水果放入碗中、叠碗、翻杯子、整理桌面。在每个任务中,ReconVLA 都取得了最高成功率。

特别值得注意的是在“未见物体”(unseen objects)的测试中,当目标物体不在训练数据中时,对比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目标并完成操作,展现出其视觉泛化能力。


图 | 四个代表性任务的真实世界设置(来源:论文)

当然,任何方法都不是完美的。宋文轩向 DeepTech 坦言,ReconVLA 的主要额外成本在训练阶段——引入重建目标意味着更多的计算开销,尽管团队已经对扩散模块做了轻量化设计来控制这部分消耗。丁鹏翔指出了另一层局限:当前建模仍然主要基于二维视觉空间,在需要深度信息和三维几何约束的高精度任务中,即便二维定位更加精确,空间操作精度仍然可能受限。

团队透露,他们已在后续工作中开始探索三维感知建模(3D-aware modeling),相关成果已提交至近期的学术会议。此外,力觉感知和力控信号等多模态信息目前也尚未纳入框架,但从方法结构上看,这些模态完全可以通过同样的隐式建模机制整合进来。

谈到具身智能的落地前景,丁鹏翔的看法颇为务实。他认为 VLA 不必急于落地到某一个具体的垂直场景才算有价值。类比早期的 ChatGPT,GPT-3 发布时并没有立即嵌入某个特定行业流程,但它显著改变了写作和内容创作的效率。

VLA 的价值可能也会经历类似的“两步走”。第一步是降低部署成本。过去每个工厂任务都需要独立建模,如果有一个足够强的基础模型,企业只需少量微调就能完成适配;第二步才是结合 Agent 系统构建具体场景的闭环工作流。

他还补充说,他们曾将经过通用训练的模型部署到实际工业环境中测试拧螺丝、插接零部件等任务,结果显示只要基座模型足够稳定,下游任务性能就会显著提升。他认为短中期更具潜力的场景包括半结构化工业装配、轻工业精细操作以及商业服务机器人(如饮品制作)。这些场景的共同特点是操作链条明确、精度要求高、对重复性稳定性有刚需。

除研究外,这支团队还共同创建了一个名为 OpenHelix 的开源社区,目前已持续开源十余个项目,累计获得约 3,600 个 GitHub 星标。在资源有限的条件下,他们选择了一条"高效与聚焦"的路线。不追求数百张 GPU 的大规模训练和高度工程化的演示,而是专注于具有方法论洞见的研究方向。

他们相信,只有通过开放共享,研究成果才能真正落地到更多从业者手中。除了 ReconVLA 的后续迭代,团队还在推进触觉与力反馈、双臂协作等方向的研究,目标是拓宽 VLA 的能力边界,而不仅仅停留在单一展示型应用上。

https://arxiv.org/html/2508.10333v1

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马俊仁:被国家队开除,如今怎么样了

马俊仁:被国家队开除,如今怎么样了

鲸探所长
2026-02-09 16:49:55
陈梦宣布双喜临门,多年努力终有收获,母亲欣慰,心头大事落定

陈梦宣布双喜临门,多年努力终有收获,母亲欣慰,心头大事落定

观察鉴娱
2026-02-10 10:17:57
你见过最土的土豪有多土?网友:你这明显是短剧看多了

你见过最土的土豪有多土?网友:你这明显是短剧看多了

带你感受人间冷暖
2026-02-11 11:21:06
藏不住了!中戏风暴升级,免试入编疑云,当年考编真相藏不住

藏不住了!中戏风暴升级,免试入编疑云,当年考编真相藏不住

户外阿毽
2026-02-15 20:09:08
80年来的首次!特朗普的支持率不再公布

80年来的首次!特朗普的支持率不再公布

听风听你
2026-02-15 13:08:12
程潇这身材对吗

程潇这身材对吗

小椰的奶奶
2026-02-08 09:51:11
中国驻巴基斯坦大使馆提醒中国公民强化安全意识,谨慎来巴

中国驻巴基斯坦大使馆提醒中国公民强化安全意识,谨慎来巴

环球网资讯
2026-02-15 08:34:07
唏嘘!孙颖莎回老家石家庄过年,7年来首次春节回家和父母亲人团圆

唏嘘!孙颖莎回老家石家庄过年,7年来首次春节回家和父母亲人团圆

818体育
2026-02-15 21:58:44
点赞!首艘095核潜艇下水,中国深海利剑出鞘!

点赞!首艘095核潜艇下水,中国深海利剑出鞘!

眼界看视野
2026-02-14 19:58:20
小心!高铁车厢的电源插座,真的有点儿伤手机

小心!高铁车厢的电源插座,真的有点儿伤手机

果壳
2026-02-14 17:13:35
40岁以上的成熟的女性不要总是追求潮流,这样打扮才更有魅力

40岁以上的成熟的女性不要总是追求潮流,这样打扮才更有魅力

牛弹琴123456
2026-02-14 16:33:41
杨兰兰保镖身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

杨兰兰保镖身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

公子麦少
2025-08-10 17:04:40
天呐!刘亦菲妈妈被偶遇,都 65 岁了,还是美得不像话!太让人羡

天呐!刘亦菲妈妈被偶遇,都 65 岁了,还是美得不像话!太让人羡

陈意小可爱
2026-02-14 18:12:58
英国男子在飞机上买下航班上所有刮刮乐,但是“没人赢任何东西”

英国男子在飞机上买下航班上所有刮刮乐,但是“没人赢任何东西”

小蒋爱唠嗑
2026-02-11 14:30:53
34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

小书生吃瓜
2026-02-15 22:41:52
佛山大沥,房价从2015年7200涨到27800,如今震荡回落真实价位

佛山大沥,房价从2015年7200涨到27800,如今震荡回落真实价位

林子说事
2026-02-15 13:00:45
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
自民党大胜,别再说“高市被日本民众抛弃”这样自欺欺人的话了

自民党大胜,别再说“高市被日本民众抛弃”这样自欺欺人的话了

壹家言
2026-02-09 16:57:35
6只猫纵身跳下6楼,用生命为20只同伴推开了一扇生门...

6只猫纵身跳下6楼,用生命为20只同伴推开了一扇生门...

爱宠物
2026-02-15 22:10:33
人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

历史按察使司
2026-02-13 08:00:22
2026-02-16 01:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16271文章数 514614关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

时尚
本地
游戏
手机
健康

多巴胺失宠了?过年这样穿彩色时髦又减龄

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

LPL第一赛段还未结束,亚运会已有3队退出LOL比赛,包括东道主

手机要闻

荣耀Magic V6真机现身,圆形Deco、红色机身

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版