网易首页 > 网易号 > 正文 申请入驻

首获AAAI杰出论文奖,这个具身团队让机器人学会像人一样凝视目标

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

想象这样一个场景:一个机器人面前的桌上摆着一堆物体,其中包含红色积木和蓝色积木,此时,如果给出让它“把红色积木叠到蓝色积木上”的指令,它是否能顺利执行?


(来源:Nano Banana Pro)

对人类来说,这个任务听起来十分简单。因为你需要做的只是眼睛盯着红色积木,伸手拿起,然后锁定蓝色积木,放到上面就大功告成。但对当前大多数机器人而言,事情并非如此。在很多时候,机器人的任务成功率并不稳定,它有可能径直去操纵其他物体,而非目标物体。

为什么如此简单的任务,对于机器人来说却无法稳定完成呢?

这是由于当前主流的 VLA 模型(Vision-Language-Action Model,视觉-语言-动作模型)在执行抓取任务时,视觉注意力往往呈弥散分布。也就是说,模型虽能输出动作序列,但其内部注意力并未真正聚焦于指令所指的目标物体(如红色积木),而是分散在图像多个区域。

这种注意力错位直接导致机器人的操作失误,例如容易抓取错误物体,或在多物体环境中定位不准。

为了解决这一问题,来自香港科技大学(广州)与西湖大学等高校的一支联合研究团队,在对主流 VLA 模型进行系统分析后,提出了 ReconVLA(重建式视觉-语言-动作模型)。

在这个模型中,他们创新性地引入了一种名为"隐式定位"(Implicit Grounding)的训练范式。不在推理阶段额外加模块,不输出边界框,而是在训练过程中,通过让模型重建目标操作区域的图像,迫使它在视觉编码阶段就把注意力集中到正确的地方。


图 | 团队论文(来源:arXiv)

据悉,该工作于上月荣获 AAAI 国际先进人工智能协会 2026 的杰出论文奖(Outstanding Paper Award)。

论文第一作者宋文轩告诉 DeepTech,当前 VLA 模型的主流架构,通常以一个预训练好的 VLM 为主干,再接上一个动作生成头(action head),用来输出机器人的控制信号。这个架构里,VLM 负责“看”和“理解”,动作头负责“做”。


图 | 宋文轩 (来源:被访者)

问题在于,VLM 最初是为图像理解和对话任务设计的,它学到的视觉表征(visual representation)侧重语义层面。比如识别一张图里有什么东西、它们之间的关系。但对机器人操控来说,真正重要的不只是“图里有什么”,而是“我该去操作哪里”,这涉及到操作可供性(affordance)的感知,是一种 VLM 原生训练目标中并不包含的能力。

另一位团队核心成员之一丁鹏翔补充,通用视觉模型和具身控制任务之间存在显著的领域差异(domain gap)。即便 VLM 在图像理解上极为强大,它也未必能自然迁移到机器人场景。这种能力缺失直接表现为视觉注意力的高度弥散。


图 | 丁鹏翔 (来源:受访者)

在简单场景下,注意力分散或许影响不大。如果桌上只有一个物体,就算注意力散一点,模型也大概率能抓对。但一旦场景变得杂乱,比如桌面上摆了五六样东西,麻烦就来了。

团队实验表明,此时,“模型往往看到物体就抓”。只要腕部相机视野中出现可抓取目标,模型就倾向于执行抓取动作,至于抓的是不是人类期望的那个,它并不总是关心。抓取动作的成功率可能很高,但抓取的正确率则是另一回事。这说明模型完成了动作层面的任务,却没有与人类意图对齐(intent alignment)。

另一个更隐蔽问题出现在长程任务(long-horizon task)中。所谓长程任务,就是需要多个步骤依次完成的操作链。因为即使每一步哪怕只有微小偏差,误差会逐步累积,到后面几步时,系统状态可能已经偏离了训练数据的分布。丁鹏翔举了一个直观的数字:即便单步成功率高达 99%,连续执行 100 步后的整体成功率也只剩约 36.6%。

那么,“隐式定位”到底是什么意思?具体又该如何实现?丁鹏翔给了 DeepTech 类比:人类在执行精细操作时,虽然看到的是整个场景,但真正聚焦的只有一小片区域。如果指令是“拿杯子”,哪怕桌上放了十样东西,人类的视觉焦点会自动锁定在杯子上,周围的一切都变得模糊。这种行为在视觉科学中叫做“凝视”(gaze)。

ReconVLA 借鉴了这一机制。在训练阶段,除了常规的动作预测损失之外,模型还需要完成一个辅助任务:重建当前图像中与操作目标对应的区域,即所谓的“凝视区域”(gaze region)。


(来源:论文)

具体来说,模型的视觉输出 token(称为"重建 token",reconstructive token)会被输入到一个轻量级的扩散变压器(diffusion transformer)中,该扩散模块的目标是从噪声中恢复出凝视区域的视觉特征。如果模型在编码阶段没有把注意力放在目标区域上,它输出的重建 token 就不会包含足够的细粒度信息,扩散模块就无法完成重建,损失函数就会惩罚它。

这形成了一个流畅的反馈回路:想要完成重建 → 必须关注目标 → 关注目标后视觉表征更精确 → 动作预测更准。整个过程中,没有任何显式的边界框输出,也没有外部检测模型参与推理。重建模块只在训练时存在,推理时被完全移除。这意味着 ReconVLA 在部署阶段的推理速度与常规 VLA 模型完全一致,不引入任何额外延迟。

这和此前的视觉定位方法有什么不同?

此前,视觉定位主要依赖于两种范式。一种是"显式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它们使用外部检测模型(如 YOLO 或 LISA)先把目标物体裁剪出来,再把裁剪图像和原图一起输入 VLA。这种方法确实提供了更聚焦的视觉信息,但它依赖外部模型的精度,且两张图像的简单拼接引入了信息冗余。

另一种是"思维链定位"(CoT Grounding),如 ECoT 和 GraspVLA,让模型先输出目标的边界框坐标,再输出动作。这种方式在理论上很漂亮,但实验结果显示它甚至不如基线。在 CALVIN 基准测试中,CoT 方式的 5 步连续任务成功率几乎为零。原因可能在于,坐标形式的定位信息对 VLA 模型来说并不是一种高效的引导信号,同时要输出精确坐标和精确动作值,给训练带来了额外负担。


图 | 不同范式之间的概念比较(来源:论文)

相比之下,ReconVLA 的隐式定位在同一基准上取得了最高成绩。

在 CALVIN ABC→D 测试(要求模型在未见过的环境 D 中执行 5 步连续任务)中,ReconVLA 在第 5 个子任务上达到了 64.1% 的成功率,而基线模型为 49.0%,显式定位方法为 50.2%,提升约 15 个百分点。在更具挑战性的精细操作任务"积木堆叠"(stack block)中,基线成功率仅 59.3%,ReconVLA 达到 79.5%,提升超过 20 个百分点。


图 | 不同范式之间的测试分数对比(来源:论文)

为了让重建能力具备泛化性,团队还构建了一个大规模预训练数据集,包含超过 10 万条机器人操作轨迹和 200 万个数据样本。数据来源包括开源的 BridgeData V2 以及 LIBERO、CALVIN 两个仿真环境数据集。

凝视区域的标注借助了 Grounding DINO 这一开放词汇检测模型(open-vocabulary detector),大部分数据可以通过零样本(zero-shot)方式直接标注,对于机器人场景中一些较为罕见或复杂的物体,团队则进行了定制化微调。消融实验证实,预训练阶段对泛化能力的提升是显著的。移除预训练后,5 步连续任务的最终成功率从 64.1% 下降至 58.2%。

真实世界的实验进一步验证了这一方法的可行性。

团队使用一台 6 自由度的 AgileX PiPer 机械臂,配合两个深度相机(分别作为基座视角和手部视角),在四个代表性任务上进行了测试:将水果放入碗中、叠碗、翻杯子、整理桌面。在每个任务中,ReconVLA 都取得了最高成功率。

特别值得注意的是在“未见物体”(unseen objects)的测试中,当目标物体不在训练数据中时,对比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目标并完成操作,展现出其视觉泛化能力。


图 | 四个代表性任务的真实世界设置(来源:论文)

当然,任何方法都不是完美的。宋文轩向 DeepTech 坦言,ReconVLA 的主要额外成本在训练阶段——引入重建目标意味着更多的计算开销,尽管团队已经对扩散模块做了轻量化设计来控制这部分消耗。丁鹏翔指出了另一层局限:当前建模仍然主要基于二维视觉空间,在需要深度信息和三维几何约束的高精度任务中,即便二维定位更加精确,空间操作精度仍然可能受限。

团队透露,他们已在后续工作中开始探索三维感知建模(3D-aware modeling),相关成果已提交至近期的学术会议。此外,力觉感知和力控信号等多模态信息目前也尚未纳入框架,但从方法结构上看,这些模态完全可以通过同样的隐式建模机制整合进来。

谈到具身智能的落地前景,丁鹏翔的看法颇为务实。他认为 VLA 不必急于落地到某一个具体的垂直场景才算有价值。类比早期的 ChatGPT,GPT-3 发布时并没有立即嵌入某个特定行业流程,但它显著改变了写作和内容创作的效率。

VLA 的价值可能也会经历类似的“两步走”。第一步是降低部署成本。过去每个工厂任务都需要独立建模,如果有一个足够强的基础模型,企业只需少量微调就能完成适配;第二步才是结合 Agent 系统构建具体场景的闭环工作流。

他还补充说,他们曾将经过通用训练的模型部署到实际工业环境中测试拧螺丝、插接零部件等任务,结果显示只要基座模型足够稳定,下游任务性能就会显著提升。他认为短中期更具潜力的场景包括半结构化工业装配、轻工业精细操作以及商业服务机器人(如饮品制作)。这些场景的共同特点是操作链条明确、精度要求高、对重复性稳定性有刚需。

除研究外,这支团队还共同创建了一个名为 OpenHelix 的开源社区,目前已持续开源十余个项目,累计获得约 3,600 个 GitHub 星标。在资源有限的条件下,他们选择了一条"高效与聚焦"的路线。不追求数百张 GPU 的大规模训练和高度工程化的演示,而是专注于具有方法论洞见的研究方向。

他们相信,只有通过开放共享,研究成果才能真正落地到更多从业者手中。除了 ReconVLA 的后续迭代,团队还在推进触觉与力反馈、双臂协作等方向的研究,目标是拓宽 VLA 的能力边界,而不仅仅停留在单一展示型应用上。

https://arxiv.org/html/2508.10333v1

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
《2026山东春晚》节目单、播出平台来了!

《2026山东春晚》节目单、播出平台来了!

齐鲁壹点
2026-02-15 15:59:18
《2026辽宁春晚》节目单正式官宣!

《2026辽宁春晚》节目单正式官宣!

沈阳生活圈i
2026-02-15 15:40:37
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
高云翔现状:45岁发福不刮胡,定居天津有新家庭,今生活天差地别

高云翔现状:45岁发福不刮胡,定居天津有新家庭,今生活天差地别

查尔菲的笔记
2026-02-14 18:04:28
季克良:工作50年喝掉2吨茅台,退休7年被返聘,今87岁身体硬朗

季克良:工作50年喝掉2吨茅台,退休7年被返聘,今87岁身体硬朗

白面书誏
2026-01-20 00:58:18
马斯克预测:2026年底AI将直接生成二进制文件,编码职业或将消失

马斯克预测:2026年底AI将直接生成二进制文件,编码职业或将消失

IT之家
2026-02-15 15:16:05
中国股市——2026年3月极具翻倍潜力的牛股名单!

中国股市——2026年3月极具翻倍潜力的牛股名单!

道说有财
2026-02-13 13:58:28
当年这6部狗血剧都成了爆款,三观稀碎,你还记得几部?

当年这6部狗血剧都成了爆款,三观稀碎,你还记得几部?

小Q侃电影
2026-02-15 18:59:59
郑恺下乡杀猪办宴,穿四川省服毫无违和感,洗菜烧柴还炒菜接地气

郑恺下乡杀猪办宴,穿四川省服毫无违和感,洗菜烧柴还炒菜接地气

最美的开始
2026-02-13 15:32:45
高市慌了?中国加速增兵东海,高市紧急放话,1亿日本人面临选择

高市慌了?中国加速增兵东海,高市紧急放话,1亿日本人面临选择

青橘罐头
2026-02-14 07:36:50
新婚夜妻子不让碰,我赌气回部队,半年后她抱娃探亲

新婚夜妻子不让碰,我赌气回部队,半年后她抱娃探亲

黄家湖的忧伤
2026-02-15 17:50:11
郭沫若想让月薪100的溥仪当助理,岂料溥仪用5个字,让对方红了脸

郭沫若想让月薪100的溥仪当助理,岂料溥仪用5个字,让对方红了脸

混沌录
2026-02-13 00:11:33
王毅在慕尼黑安全会议上,拿德国和日本作对比,日本媒体人不干了

王毅在慕尼黑安全会议上,拿德国和日本作对比,日本媒体人不干了

安安说
2026-02-15 12:43:39
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
她劝老公别回农村盖房子,他却不听砸了45万,现在月月掏钱租别人的房子住

她劝老公别回农村盖房子,他却不听砸了45万,现在月月掏钱租别人的房子住

九哥哥车评
2026-02-15 18:27:38
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
TVB男星否认会特别照顾已故男星女儿!大赞对方有学识休养,会多介绍工作!

TVB男星否认会特别照顾已故男星女儿!大赞对方有学识休养,会多介绍工作!

我爱追港剧
2026-02-14 22:54:37
半两财经|小米成都碰撞事故完成责任认定!酒后驾车当事人全责

半两财经|小米成都碰撞事故完成责任认定!酒后驾车当事人全责

北青网-北京青年报
2026-02-14 12:14:03
2026-02-15 19:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2222129文章数 5484关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

网红幼虎去世被"替身"直播 认养人转2600得知真相崩溃

头条要闻

网红幼虎去世被"替身"直播 认养人转2600得知真相崩溃

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

家居
亲子
旅游
教育
游戏

家居要闻

中古雅韵 乐韵伴日常

亲子要闻

青春期孩子正确长高方法

旅游要闻

大理景区年味“满格”迎客来

教育要闻

五年级求面积,中点是解题关键

会飞还能拉人:玩家吐槽《守望先锋》这只猫太超模

无障碍浏览 进入关怀版