TrackVLA++：具身视觉跟踪的推理与记忆双升级|追踪|机器人|真实世界

TrackVLA++：具身视觉跟踪的推理与记忆双升级

分享至

文章来源：鼓捣AI。

在拥挤商场里，陪伴机器人如何精准跟随主人，即便被人群短暂遮挡、遇到穿同款衣服的干扰者也不跟丢？在复杂室内环境中，引导机器人怎样持续锁定目标，完成长时程跟踪任务？这些场景的核心技术——具身视觉跟踪（EVT），长期面临遮挡、干扰物、长时记忆漂移三大痛点。

近日，来自北大等机构的团队提出了TrackVLA++，一款融合显式空间推理与长时目标记忆的新型VLA（视觉-语言-动作）模型，在仿真与真实场景中均实现SOTA性能，为具身机器人的精准跟踪提供了新的解决方案。

论文链接：

https://arxiv.org/pdf/2510.07134

项目主页：

https://pku-epic.github.io/TrackVLA-plus-plus-Web/

具身视觉跟踪的核心痛点

具身视觉跟踪（EVT）是机器人在动态物理环境中，基于视觉观测和语言指令，持续追踪指定移动目标的关键能力，广泛支撑陪伴机器人、引导机器人、服务助手等实际应用。

尽管近年来VLA模型（如TrackVLA、LOVON）推动了语言引导跟踪的发展，但现有方法仍存在两大致命缺陷：

缺乏显式空间推理 ：依赖视觉特征直接匹配，无法精准推断目标相对位置，遇到相似干扰物易误判；
长时记忆机制薄弱 ：目标被长时间遮挡或脱离视野后，记忆易漂移或被干扰物污染，难以重新识别目标。

这些问题导致现有模型在复杂场景中性能大幅下降，成为EVT技术落地的主要瓶颈。

核心创新：推理与记忆的双重突破

TrackVLA++基于导航基础模型NavFoM构建，核心升级在于两个专属模块：Polar-CoT（极坐标思维链） 和TIM（目标识别记忆）。

模型Pipeline流程图，展示TrackVLA++的完整流程：从视频流和语言指令输入、Polar-CoT推理、TIM记忆更新、动作轨迹输出。

Polar-CoT：轻量高效的空间推理机制

传统思维链（CoT）推理会生成冗长文本或复杂边界框，计算开销大且不适用于多相机场景。TrackVLA++提出的Polar-CoT做出两大优化：

极坐标离散化 ：将机器人0.6-5.0m环形视场，离散为60个角度（θ）×30个距离（d）的扇区，每个扇区编码为唯一token，形成紧凑的空间表征；
高效推理输出 ：仅预测一个推理token，要么是 <θ,d> （目标在视场内的相对位置），要么是（目标遮挡或超出视野），既保证效率又消除多相机歧义。

这种设计让模型具备“空间思考能力”，不再依赖纯视觉匹配，而是像人一样通过“角度+距离”定位目标，推理效率较传统CoT提升显著。

TIM：置信门控的长时目标记忆

为解决长时跟踪中的记忆漂移问题，TIM模块采用置信度感知门控策略，实现稳健记忆更新：

记忆更新规则：仅当Polar-CoT以高置信度（通过归一化熵计算）检测到目标时，才用新视觉特征更新记忆；
遮挡保护机制：目标被遮挡时， token强制置信度归零，冻结记忆更新，保留最后一次可靠的目标表征；
轻量化设计：仅用4个token编码记忆状态，无需额外算力，且增加token数量无法带来性能提升，兼顾高效与稳健。

通过“推理引导记忆”的模式，TIM有效抵御干扰物污染，在长时间遮挡后仍能快速重新识别目标。

实验验证

团队在EVT-Bench、Gym-UnrealCV两大基准，以及三大真实场景中对TrackVLA++进行了全面验证，结果亮点十足。

配图3：论文Fig.4 仿真实验可视化图）插入位置：3.1仿真基准部分开头配图说明：展示TrackVLA++在EVT-Bench不同子任务（STT/DT/AT）和UnrealCV场景中的跟踪效果，红色区域标记Polar-CoT预测的目标位置，直观体现模型在遮挡、干扰下的精准定位能力。

仿真基准

在EVT-Bench（复杂室内场景，含大量干扰物）中，TrackVLA++表现突出：

干扰跟踪（DT）任务：多视图成功率（SR）达74.0%，较前作NavFoM提升12%，单视图提升5.1%；
单目标跟踪（STT）：多视图SR达90.9%，碰撞率（CR）仅1.50%，平衡跟踪精度与安全性；
零样本泛化：在Gym-UnrealCV的未知环境中，干扰物任务 episode长度（EL）达484，成功率（SR）0.92，超越TrackVLA等现有模型。

在视觉识别能力上，TrackVLA++在SYNTH-PEDES零样本人物识别任务中准确率达87.5%，较SoM+GPT-4o提升5.1%，且推理速度达4.8 FPS，是GPT-based方法的48倍，兼顾精度与实时性。

仿真实验可视化结果。TrackVLA++ 在遮挡和干扰条件下表现优异。左上角小图展示了 Polar-CoT 的预测结果，红色区域表示预测的目标位置；为简洁起见，EVT-Bench 上的可视化结果仅截取了前方扇区。放大查看可获得更佳视觉效果。

真实世界

团队在Unitree GO2四足机器人上部署TrackVLA++（配备4个多视图相机），在三大核心场景中验证：

障碍遮挡：目标被大型障碍物临时遮挡，成功率较TrackVLA提升14%；
蜿蜒路径：目标沿复杂轨迹移动，跟踪保真度提升7%；
相似干扰物：存在视觉相似的人类干扰者，识别稳健性提升17%。

真实世界实验结果图：左侧展示三大真实场景（障碍遮挡、蜿蜒路径、相似干扰物）的跟踪过程，右侧柱状图对比TrackVLA++与TrackVLA的成功率。

消融实验

通过 ablation 实验（EVT-Bench DT多视图场景），明确两大模块的贡献：

仅移除Polar-CoT：成功率下降6.0%，证明空间推理对定位精度的关键作用；
仅移除TIM：成功率下降2.8%，验证长时记忆对遮挡场景的支撑价值；
TIM token数量从4增至16：性能无明显提升，印证轻量化设计的合理性。

技术亮点与应用前景

TrackVLA++的核心优势的在于精准+高效+泛化三者兼备：

精准性：Polar-CoT的空间推理+TIM的置信门控记忆，解决遮挡、干扰、记忆漂移三大痛点；
高效性：推理token紧凑设计+轻量化记忆，推理速度达4.8 FPS，满足实时跟踪需求；
泛化性：零样本性能优异，无需针对新场景重新训练，适配真实世界的动态变化。

这些特性使其在多个领域具备落地潜力：

服务机器人：商场、机场的引导与陪伴，精准跟随目标并规避干扰；
工业场景：车间内跟踪特定设备或工作人员，完成巡检、辅助任务；
安防监控：动态锁定可疑目标，即便短暂遮挡也能持续追踪。

总结与展望

TrackVLA++通过Polar-CoT极坐标推理和TIM置信门控记忆两大创新，首次将显式空间推理与长时目标记忆融入VLA模型，彻底解决了具身视觉跟踪的核心痛点。实验证明，该模型在仿真基准中刷新SOTA，在真实场景中展现出强稳健性，为具身机器人的精准跟踪提供了全新技术路径。

未来，团队可进一步探索多目标跟踪、动态环境自适应等方向，推动EVT技术在更复杂场景中落地。对于机器人研发者而言，TrackVLA++的模块化设计也具备极高的参考价值，为后续模型优化提供了清晰思路。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.