文章来源:鼓捣AI。
在拥挤商场里,陪伴机器人如何精准跟随主人,即便被人群短暂遮挡、遇到穿同款衣服的干扰者也不跟丢?在复杂室内环境中,引导机器人怎样持续锁定目标,完成长时程跟踪任务?这些场景的核心技术——具身视觉跟踪(EVT),长期面临遮挡、干扰物、长时记忆漂移三大痛点。
近日,来自北大等机构的团队提出了TrackVLA++,一款融合显式空间推理与长时目标记忆的新型VLA(视觉-语言-动作)模型,在仿真与真实场景中均实现SOTA性能,为具身机器人的精准跟踪提供了新的解决方案。
论文链接:
https://arxiv.org/pdf/2510.07134
项目主页:
https://pku-epic.github.io/TrackVLA-plus-plus-Web/
![]()
具身视觉跟踪的核心痛点
具身视觉跟踪(EVT)是机器人在动态物理环境中,基于视觉观测和语言指令,持续追踪指定移动目标的关键能力,广泛支撑陪伴机器人、引导机器人、服务助手等实际应用。
尽管近年来VLA模型(如TrackVLA、LOVON)推动了语言引导跟踪的发展,但现有方法仍存在两大致命缺陷:
缺乏显式空间推理 :依赖视觉特征直接匹配,无法精准推断目标相对位置,遇到相似干扰物易误判;
长时记忆机制薄弱 :目标被长时间遮挡或脱离视野后,记忆易漂移或被干扰物污染,难以重新识别目标。
这些问题导致现有模型在复杂场景中性能大幅下降,成为EVT技术落地的主要瓶颈。
核心创新:推理与记忆的双重突破
TrackVLA++基于导航基础模型NavFoM构建,核心升级在于两个专属模块:Polar-CoT(极坐标思维链) 和TIM(目标识别记忆)。
![]()
模型Pipeline流程图,展示TrackVLA++的完整流程:从视频流和语言指令输入、Polar-CoT推理、TIM记忆更新、动作轨迹输出。
Polar-CoT:轻量高效的空间推理机制
传统思维链(CoT)推理会生成冗长文本或复杂边界框,计算开销大且不适用于多相机场景。TrackVLA++提出的Polar-CoT做出两大优化:
极坐标离散化 :将机器人0.6-5.0m环形视场,离散为60个角度(θ)×30个距离(d)的扇区,每个扇区编码为唯一token,形成紧凑的空间表征;
高效推理输出 :仅预测一个推理token,要么是
<θ,d>(目标在视场内的相对位置),要么是(目标遮挡或超出视野),既保证效率又消除多相机歧义。
这种设计让模型具备“空间思考能力”,不再依赖纯视觉匹配,而是像人一样通过“角度+距离”定位目标,推理效率较传统CoT提升显著。
TIM:置信门控的长时目标记忆
为解决长时跟踪中的记忆漂移问题,TIM模块采用置信度感知门控策略,实现稳健记忆更新:
记忆更新规则:仅当Polar-CoT以高置信度(通过归一化熵计算)检测到目标时,才用新视觉特征更新记忆;
遮挡保护机制:目标被遮挡时,
token强制置信度归零,冻结记忆更新,保留最后一次可靠的目标表征;轻量化设计:仅用4个token编码记忆状态,无需额外算力,且增加token数量无法带来性能提升,兼顾高效与稳健。
通过“推理引导记忆”的模式,TIM有效抵御干扰物污染,在长时间遮挡后仍能快速重新识别目标。
实验验证
团队在EVT-Bench、Gym-UnrealCV两大基准,以及三大真实场景中对TrackVLA++进行了全面验证,结果亮点十足。
配图3:论文Fig.4 仿真实验可视化图) 插入位置:3.1仿真基准部分开头 配图说明:展示TrackVLA++在EVT-Bench不同子任务(STT/DT/AT)和UnrealCV场景中的跟踪效果,红色区域标记Polar-CoT预测的目标位置,直观体现模型在遮挡、干扰下的精准定位能力。
仿真基准
在EVT-Bench(复杂室内场景,含大量干扰物)中,TrackVLA++表现突出:
干扰跟踪(DT)任务:多视图成功率(SR)达74.0%,较前作NavFoM提升12%,单视图提升5.1%;
单目标跟踪(STT):多视图SR达90.9%,碰撞率(CR)仅1.50%,平衡跟踪精度与安全性;
零样本泛化:在Gym-UnrealCV的未知环境中,干扰物任务 episode长度(EL)达484,成功率(SR)0.92,超越TrackVLA等现有模型。
在视觉识别能力上,TrackVLA++在SYNTH-PEDES零样本人物识别任务中准确率达87.5%,较SoM+GPT-4o提升5.1%,且推理速度达4.8 FPS,是GPT-based方法的48倍,兼顾精度与实时性。
![]()
仿真实验可视化结果。TrackVLA++ 在遮挡和干扰条件下表现优异。左上角小图展示了 Polar-CoT 的预测结果,红色区域表示预测的目标位置;为简洁起见,EVT-Bench 上的可视化结果仅截取了前方扇区。放大查看可获得更佳视觉效果。
真实世界
![]()
团队在Unitree GO2四足机器人上部署TrackVLA++(配备4个多视图相机),在三大核心场景中验证:
障碍遮挡:目标被大型障碍物临时遮挡,成功率较TrackVLA提升14%;
蜿蜒路径:目标沿复杂轨迹移动,跟踪保真度提升7%;
相似干扰物:存在视觉相似的人类干扰者,识别稳健性提升17%。
![]()
真实世界实验结果图:左侧展示三大真实场景(障碍遮挡、蜿蜒路径、相似干扰物)的跟踪过程,右侧柱状图对比TrackVLA++与TrackVLA的成功率。
消融实验
通过 ablation 实验(EVT-Bench DT多视图场景),明确两大模块的贡献:
仅移除Polar-CoT:成功率下降6.0%,证明空间推理对定位精度的关键作用;
仅移除TIM:成功率下降2.8%,验证长时记忆对遮挡场景的支撑价值;
TIM token数量从4增至16:性能无明显提升,印证轻量化设计的合理性。
TrackVLA++的核心优势的在于精准+高效+泛化 三者兼备:
精准性:Polar-CoT的空间推理+TIM的置信门控记忆,解决遮挡、干扰、记忆漂移三大痛点;
高效性:推理token紧凑设计+轻量化记忆,推理速度达4.8 FPS,满足实时跟踪需求;
泛化性:零样本性能优异,无需针对新场景重新训练,适配真实世界的动态变化。
这些特性使其在多个领域具备落地潜力:
服务机器人:商场、机场的引导与陪伴,精准跟随目标并规避干扰;
工业场景:车间内跟踪特定设备或工作人员,完成巡检、辅助任务;
安防监控:动态锁定可疑目标,即便短暂遮挡也能持续追踪。
TrackVLA++通过Polar-CoT极坐标推理和TIM置信门控记忆两大创新,首次将显式空间推理与长时目标记忆融入VLA模型,彻底解决了具身视觉跟踪的核心痛点。实验证明,该模型在仿真基准中刷新SOTA,在真实场景中展现出强稳健性,为具身机器人的精准跟踪提供了全新技术路径。
未来,团队可进一步探索多目标跟踪、动态环境自适应等方向,推动EVT技术在更复杂场景中落地。对于机器人研发者而言,TrackVLA++的模块化设计也具备极高的参考价值,为后续模型优化提供了清晰思路。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.