网易首页 > 网易号 > 正文 申请入驻

TrackVLA++:具身视觉跟踪的推理与记忆双升级

0
分享至

文章来源:鼓捣AI。

在拥挤商场里,陪伴机器人如何精准跟随主人,即便被人群短暂遮挡、遇到穿同款衣服的干扰者也不跟丢?在复杂室内环境中,引导机器人怎样持续锁定目标,完成长时程跟踪任务?这些场景的核心技术——具身视觉跟踪(EVT),长期面临遮挡、干扰物、长时记忆漂移三大痛点。

近日,来自北大等机构的团队提出了TrackVLA++,一款融合显式空间推理长时目标记忆的新型VLA(视觉-语言-动作)模型,在仿真与真实场景中均实现SOTA性能,为具身机器人的精准跟踪提供了新的解决方案。

论文链接:

https://arxiv.org/pdf/2510.07134

项目主页:

https://pku-epic.github.io/TrackVLA-plus-plus-Web/

具身视觉跟踪的核心痛点

具身视觉跟踪(EVT)是机器人在动态物理环境中,基于视觉观测和语言指令,持续追踪指定移动目标的关键能力,广泛支撑陪伴机器人、引导机器人、服务助手等实际应用。

尽管近年来VLA模型(如TrackVLA、LOVON)推动了语言引导跟踪的发展,但现有方法仍存在两大致命缺陷:

  1. 缺乏显式空间推理 :依赖视觉特征直接匹配,无法精准推断目标相对位置,遇到相似干扰物易误判;

  2. 长时记忆机制薄弱 :目标被长时间遮挡或脱离视野后,记忆易漂移或被干扰物污染,难以重新识别目标。

这些问题导致现有模型在复杂场景中性能大幅下降,成为EVT技术落地的主要瓶颈。

核心创新:推理与记忆的双重突破

TrackVLA++基于导航基础模型NavFoM构建,核心升级在于两个专属模块:Polar-CoT(极坐标思维链)TIM(目标识别记忆)


模型Pipeline流程图,展示TrackVLA++的完整流程:从视频流和语言指令输入、Polar-CoT推理、TIM记忆更新、动作轨迹输出。

Polar-CoT:轻量高效的空间推理机制

传统思维链(CoT)推理会生成冗长文本或复杂边界框,计算开销大且不适用于多相机场景。TrackVLA++提出的Polar-CoT做出两大优化:

  • 极坐标离散化 :将机器人0.6-5.0m环形视场,离散为60个角度(θ)×30个距离(d)的扇区,每个扇区编码为唯一token,形成紧凑的空间表征;

  • 高效推理输出 :仅预测一个推理token,要么是 <θ,d> (目标在视场内的相对位置),要么是 (目标遮挡或超出视野),既保证效率又消除多相机歧义。

这种设计让模型具备“空间思考能力”,不再依赖纯视觉匹配,而是像人一样通过“角度+距离”定位目标,推理效率较传统CoT提升显著。

TIM:置信门控的长时目标记忆

为解决长时跟踪中的记忆漂移问题,TIM模块采用置信度感知门控策略,实现稳健记忆更新:

  • 记忆更新规则:仅当Polar-CoT以高置信度(通过归一化熵计算)检测到目标时,才用新视觉特征更新记忆;

  • 遮挡保护机制:目标被遮挡时, token强制置信度归零,冻结记忆更新,保留最后一次可靠的目标表征;

  • 轻量化设计:仅用4个token编码记忆状态,无需额外算力,且增加token数量无法带来性能提升,兼顾高效与稳健。

通过“推理引导记忆”的模式,TIM有效抵御干扰物污染,在长时间遮挡后仍能快速重新识别目标。

实验验证

团队在EVT-Bench、Gym-UnrealCV两大基准,以及三大真实场景中对TrackVLA++进行了全面验证,结果亮点十足。

配图3:论文Fig.4 仿真实验可视化图) 插入位置:3.1仿真基准部分开头 配图说明:展示TrackVLA++在EVT-Bench不同子任务(STT/DT/AT)和UnrealCV场景中的跟踪效果,红色区域标记Polar-CoT预测的目标位置,直观体现模型在遮挡、干扰下的精准定位能力。

仿真基准

在EVT-Bench(复杂室内场景,含大量干扰物)中,TrackVLA++表现突出:

  • 干扰跟踪(DT)任务:多视图成功率(SR)达74.0%,较前作NavFoM提升12%,单视图提升5.1%;

  • 单目标跟踪(STT):多视图SR达90.9%,碰撞率(CR)仅1.50%,平衡跟踪精度与安全性;

  • 零样本泛化:在Gym-UnrealCV的未知环境中,干扰物任务 episode长度(EL)达484,成功率(SR)0.92,超越TrackVLA等现有模型。

在视觉识别能力上,TrackVLA++在SYNTH-PEDES零样本人物识别任务中准确率达87.5%,较SoM+GPT-4o提升5.1%,且推理速度达4.8 FPS,是GPT-based方法的48倍,兼顾精度与实时性。


仿真实验可视化结果。TrackVLA++ 在遮挡和干扰条件下表现优异。左上角小图展示了 Polar-CoT 的预测结果,红色区域表示预测的目标位置;为简洁起见,EVT-Bench 上的可视化结果仅截取了前方扇区。放大查看可获得更佳视觉效果。

真实世界

团队在Unitree GO2四足机器人上部署TrackVLA++(配备4个多视图相机),在三大核心场景中验证:

  1. 障碍遮挡:目标被大型障碍物临时遮挡,成功率较TrackVLA提升14%;

  2. 蜿蜒路径:目标沿复杂轨迹移动,跟踪保真度提升7%;

  3. 相似干扰物:存在视觉相似的人类干扰者,识别稳健性提升17%。


真实世界实验结果图:左侧展示三大真实场景(障碍遮挡、蜿蜒路径、相似干扰物)的跟踪过程,右侧柱状图对比TrackVLA++与TrackVLA的成功率。

消融实验

通过 ablation 实验(EVT-Bench DT多视图场景),明确两大模块的贡献:

  • 仅移除Polar-CoT:成功率下降6.0%,证明空间推理对定位精度的关键作用;

  • 仅移除TIM:成功率下降2.8%,验证长时记忆对遮挡场景的支撑价值;

  • TIM token数量从4增至16:性能无明显提升,印证轻量化设计的合理性。

技术亮点与应用前景

TrackVLA++的核心优势的在于精准+高效+泛化 三者兼备:

  • 精准性:Polar-CoT的空间推理+TIM的置信门控记忆,解决遮挡、干扰、记忆漂移三大痛点;

  • 高效性:推理token紧凑设计+轻量化记忆,推理速度达4.8 FPS,满足实时跟踪需求;

  • 泛化性:零样本性能优异,无需针对新场景重新训练,适配真实世界的动态变化。

这些特性使其在多个领域具备落地潜力:

  • 服务机器人:商场、机场的引导与陪伴,精准跟随目标并规避干扰;

  • 工业场景:车间内跟踪特定设备或工作人员,完成巡检、辅助任务;

  • 安防监控:动态锁定可疑目标,即便短暂遮挡也能持续追踪。

总结与展望

TrackVLA++通过Polar-CoT极坐标推理TIM置信门控记忆两大创新,首次将显式空间推理与长时目标记忆融入VLA模型,彻底解决了具身视觉跟踪的核心痛点。实验证明,该模型在仿真基准中刷新SOTA,在真实场景中展现出强稳健性,为具身机器人的精准跟踪提供了全新技术路径。

未来,团队可进一步探索多目标跟踪、动态环境自适应等方向,推动EVT技术在更复杂场景中落地。对于机器人研发者而言,TrackVLA++的模块化设计也具备极高的参考价值,为后续模型优化提供了清晰思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧洲带团10年后,我决定戳破那些“中国品牌横扫全球”的粉红泡沫

欧洲带团10年后,我决定戳破那些“中国品牌横扫全球”的粉红泡沫

七分日记
2026-04-29 23:27:20
1940年最完美的暗杀:“23名保镖贴身保护,但脑袋却被人砍掉”

1940年最完美的暗杀:“23名保镖贴身保护,但脑袋却被人砍掉”

纪实文录
2025-05-08 16:15:44
尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

川渝视觉
2026-05-05 20:33:39
一条传了近30年的谣言,澄清为何那么难?

一条传了近30年的谣言,澄清为何那么难?

网络辟谣
2026-04-27 08:11:30
8日晚间世乒赛:男团四强产生3席,中国3-0复仇,韩德瑞典出局

8日晚间世乒赛:男团四强产生3席,中国3-0复仇,韩德瑞典出局

薇说体育
2026-05-08 22:12:39
6月1日正式施行!全国工地用工新规,明确60岁以上农民上岗标准

6月1日正式施行!全国工地用工新规,明确60岁以上农民上岗标准

丁丁鲤史纪
2026-05-08 14:50:31
Jeep招牌车主服务2026年取消,新方案没了情怀但有更多选择

Jeep招牌车主服务2026年取消,新方案没了情怀但有更多选择

我是一个粉刷匠2
2026-05-08 01:07:06
随着菲律宾0-0,韩国0-3,女足亚洲杯八强对阵出炉:中国PK弱旅

随着菲律宾0-0,韩国0-3,女足亚洲杯八强对阵出炉:中国PK弱旅

侧身凌空斩
2026-05-08 21:27:26
日高层访华遭冷遇,高市有大胆想法:亲自访问中国?中方态度坚决

日高层访华遭冷遇,高市有大胆想法:亲自访问中国?中方态度坚决

小嵩
2026-05-09 00:35:31
亚洲杯夺冠次数:日本四冠居首,伊朗为唯一三连冠球队

亚洲杯夺冠次数:日本四冠居首,伊朗为唯一三连冠球队

懂球帝
2026-05-08 17:54:07
按特朗普思路:国际足联不该漫天要价,反倒该给中国钱

按特朗普思路:国际足联不该漫天要价,反倒该给中国钱

南生今世说
2026-05-08 11:28:09
登机前,特朗普向31国抛出一个问题:若和大国谈崩了,北约帮不帮

登机前,特朗普向31国抛出一个问题:若和大国谈崩了,北约帮不帮

阿离家居
2026-05-08 14:29:33
张凌赫晒出烤肉照片,横店一烤肉店爆火,老板直言十分感谢张凌赫

张凌赫晒出烤肉照片,横店一烤肉店爆火,老板直言十分感谢张凌赫

可爱的巴比龙
2026-05-08 14:22:54
狂赚400万美元!华人夫妻卖假新冠检测盒,丈夫面临191年刑期,妻子潜逃中国

狂赚400万美元!华人夫妻卖假新冠检测盒,丈夫面临191年刑期,妻子潜逃中国

大洛杉矶LA
2026-05-08 06:02:43
公公来电让我还房款,我说我家全款买的,他怒吼:是你小叔子的!

公公来电让我还房款,我说我家全款买的,他怒吼:是你小叔子的!

麦子情感故事
2026-05-08 21:34:23
堂姐多年前收棉花时被人叫进家,从此再没人见过她,去向至今成谜

堂姐多年前收棉花时被人叫进家,从此再没人见过她,去向至今成谜

人间百态大全
2026-05-08 06:35:03
年终盘点:速腾L连续十年细分市场销冠,品牌护城河深不可测?

年终盘点:速腾L连续十年细分市场销冠,品牌护城河深不可测?

汽车网评
2025-12-29 15:42:26
巴拉圭总统窜台挑衅!中方24小时内下通牒,“断交” 倒计时开始

巴拉圭总统窜台挑衅!中方24小时内下通牒,“断交” 倒计时开始

轩逸阿II
2026-05-09 02:32:26
“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

妍妍教育日记
2026-04-15 09:30:09
61岁何智丽现状:从日本回老家上海,与老友聚餐,面色红润没发福

61岁何智丽现状:从日本回老家上海,与老友聚餐,面色红润没发福

以茶带书
2026-04-14 14:09:22
2026-05-09 03:31:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5525文章数 64625关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

数码
房产
亲子
时尚
军事航空

数码要闻

华硕京东重磅新品日,华硕天选7系列游戏本开启预约

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

亲子要闻

北京儿童配眼镜指南:从看得清到管得住,守住孩子的视力第一条防线

衣服其实没有必要买很贵,准备这三件基础款,百搭实用又不挑人

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版