网易首页 > 网易号 > 正文 申请入驻

TrackVLA++:具身视觉跟踪的推理与记忆双升级

0
分享至

文章来源:鼓捣AI。

在拥挤商场里,陪伴机器人如何精准跟随主人,即便被人群短暂遮挡、遇到穿同款衣服的干扰者也不跟丢?在复杂室内环境中,引导机器人怎样持续锁定目标,完成长时程跟踪任务?这些场景的核心技术——具身视觉跟踪(EVT),长期面临遮挡、干扰物、长时记忆漂移三大痛点。

近日,来自北大等机构的团队提出了TrackVLA++,一款融合显式空间推理长时目标记忆的新型VLA(视觉-语言-动作)模型,在仿真与真实场景中均实现SOTA性能,为具身机器人的精准跟踪提供了新的解决方案。

论文链接:

https://arxiv.org/pdf/2510.07134

项目主页:

https://pku-epic.github.io/TrackVLA-plus-plus-Web/


具身视觉跟踪的核心痛点

具身视觉跟踪(EVT)是机器人在动态物理环境中,基于视觉观测和语言指令,持续追踪指定移动目标的关键能力,广泛支撑陪伴机器人、引导机器人、服务助手等实际应用。

尽管近年来VLA模型(如TrackVLA、LOVON)推动了语言引导跟踪的发展,但现有方法仍存在两大致命缺陷:

  1. 缺乏显式空间推理 :依赖视觉特征直接匹配,无法精准推断目标相对位置,遇到相似干扰物易误判;

  2. 长时记忆机制薄弱 :目标被长时间遮挡或脱离视野后,记忆易漂移或被干扰物污染,难以重新识别目标。

这些问题导致现有模型在复杂场景中性能大幅下降,成为EVT技术落地的主要瓶颈。

核心创新:推理与记忆的双重突破

TrackVLA++基于导航基础模型NavFoM构建,核心升级在于两个专属模块:Polar-CoT(极坐标思维链)TIM(目标识别记忆)



模型Pipeline流程图,展示TrackVLA++的完整流程:从视频流和语言指令输入、Polar-CoT推理、TIM记忆更新、动作轨迹输出。

Polar-CoT:轻量高效的空间推理机制

传统思维链(CoT)推理会生成冗长文本或复杂边界框,计算开销大且不适用于多相机场景。TrackVLA++提出的Polar-CoT做出两大优化:

  • 极坐标离散化 :将机器人0.6-5.0m环形视场,离散为60个角度(θ)×30个距离(d)的扇区,每个扇区编码为唯一token,形成紧凑的空间表征;

  • 高效推理输出 :仅预测一个推理token,要么是 <θ,d> (目标在视场内的相对位置),要么是 (目标遮挡或超出视野),既保证效率又消除多相机歧义。

这种设计让模型具备“空间思考能力”,不再依赖纯视觉匹配,而是像人一样通过“角度+距离”定位目标,推理效率较传统CoT提升显著。

TIM:置信门控的长时目标记忆

为解决长时跟踪中的记忆漂移问题,TIM模块采用置信度感知门控策略,实现稳健记忆更新:

  • 记忆更新规则:仅当Polar-CoT以高置信度(通过归一化熵计算)检测到目标时,才用新视觉特征更新记忆;

  • 遮挡保护机制:目标被遮挡时, token强制置信度归零,冻结记忆更新,保留最后一次可靠的目标表征;

  • 轻量化设计:仅用4个token编码记忆状态,无需额外算力,且增加token数量无法带来性能提升,兼顾高效与稳健。

通过“推理引导记忆”的模式,TIM有效抵御干扰物污染,在长时间遮挡后仍能快速重新识别目标。

实验验证

团队在EVT-Bench、Gym-UnrealCV两大基准,以及三大真实场景中对TrackVLA++进行了全面验证,结果亮点十足。

配图3:论文Fig.4 仿真实验可视化图) 插入位置:3.1仿真基准部分开头 配图说明:展示TrackVLA++在EVT-Bench不同子任务(STT/DT/AT)和UnrealCV场景中的跟踪效果,红色区域标记Polar-CoT预测的目标位置,直观体现模型在遮挡、干扰下的精准定位能力。

仿真基准

在EVT-Bench(复杂室内场景,含大量干扰物)中,TrackVLA++表现突出:

  • 干扰跟踪(DT)任务:多视图成功率(SR)达74.0%,较前作NavFoM提升12%,单视图提升5.1%;

  • 单目标跟踪(STT):多视图SR达90.9%,碰撞率(CR)仅1.50%,平衡跟踪精度与安全性;

  • 零样本泛化:在Gym-UnrealCV的未知环境中,干扰物任务 episode长度(EL)达484,成功率(SR)0.92,超越TrackVLA等现有模型。

在视觉识别能力上,TrackVLA++在SYNTH-PEDES零样本人物识别任务中准确率达87.5%,较SoM+GPT-4o提升5.1%,且推理速度达4.8 FPS,是GPT-based方法的48倍,兼顾精度与实时性。



仿真实验可视化结果。TrackVLA++ 在遮挡和干扰条件下表现优异。左上角小图展示了 Polar-CoT 的预测结果,红色区域表示预测的目标位置;为简洁起见,EVT-Bench 上的可视化结果仅截取了前方扇区。放大查看可获得更佳视觉效果。

真实世界


团队在Unitree GO2四足机器人上部署TrackVLA++(配备4个多视图相机),在三大核心场景中验证:

  1. 障碍遮挡:目标被大型障碍物临时遮挡,成功率较TrackVLA提升14%;

  2. 蜿蜒路径:目标沿复杂轨迹移动,跟踪保真度提升7%;

  3. 相似干扰物:存在视觉相似的人类干扰者,识别稳健性提升17%。



真实世界实验结果图:左侧展示三大真实场景(障碍遮挡、蜿蜒路径、相似干扰物)的跟踪过程,右侧柱状图对比TrackVLA++与TrackVLA的成功率。

消融实验

通过 ablation 实验(EVT-Bench DT多视图场景),明确两大模块的贡献:

  • 仅移除Polar-CoT:成功率下降6.0%,证明空间推理对定位精度的关键作用;

  • 仅移除TIM:成功率下降2.8%,验证长时记忆对遮挡场景的支撑价值;

  • TIM token数量从4增至16:性能无明显提升,印证轻量化设计的合理性。

技术亮点与应用前景

TrackVLA++的核心优势的在于精准+高效+泛化 三者兼备:

  • 精准性:Polar-CoT的空间推理+TIM的置信门控记忆,解决遮挡、干扰、记忆漂移三大痛点;

  • 高效性:推理token紧凑设计+轻量化记忆,推理速度达4.8 FPS,满足实时跟踪需求;

  • 泛化性:零样本性能优异,无需针对新场景重新训练,适配真实世界的动态变化。

这些特性使其在多个领域具备落地潜力:

  • 服务机器人:商场、机场的引导与陪伴,精准跟随目标并规避干扰;

  • 工业场景:车间内跟踪特定设备或工作人员,完成巡检、辅助任务;

  • 安防监控:动态锁定可疑目标,即便短暂遮挡也能持续追踪。

总结与展望

TrackVLA++通过Polar-CoT极坐标推理TIM置信门控记忆两大创新,首次将显式空间推理与长时目标记忆融入VLA模型,彻底解决了具身视觉跟踪的核心痛点。实验证明,该模型在仿真基准中刷新SOTA,在真实场景中展现出强稳健性,为具身机器人的精准跟踪提供了全新技术路径。

未来,团队可进一步探索多目标跟踪、动态环境自适应等方向,推动EVT技术在更复杂场景中落地。对于机器人研发者而言,TrackVLA++的模块化设计也具备极高的参考价值,为后续模型优化提供了清晰思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南医生17分钟“桃色”事件:他们医术高超,造福患者更应被关注

湖南医生17分钟“桃色”事件:他们医术高超,造福患者更应被关注

汉史趣闻
2025-11-06 09:32:22
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
心情郁闷时就去瞅瞅李湘的评论区,我简直快要笑疯了。

心情郁闷时就去瞅瞅李湘的评论区,我简直快要笑疯了。

陈意小可爱
2025-10-21 01:04:16
马科斯通告全球,菲律宾进入全国紧急状态,中国还会出手援助吗?

马科斯通告全球,菲律宾进入全国紧急状态,中国还会出手援助吗?

瞻史
2025-11-08 10:50:50
智力退回到3岁,浙江30岁小伙长期熬夜后中招……接连8例,全是年轻人!

智力退回到3岁,浙江30岁小伙长期熬夜后中招……接连8例,全是年轻人!

FM93浙江交通之声
2025-11-07 23:27:44
恒大前总裁夏海钧找到了!藏匿资产曝光,全球合计竟达600亿!

恒大前总裁夏海钧找到了!藏匿资产曝光,全球合计竟达600亿!

李砍柴
2025-08-22 17:26:32
火箭输马刺!乌度卡五大自杀,阿门崩盘,5将发挥却难救主!

火箭输马刺!乌度卡五大自杀,阿门崩盘,5将发挥却难救主!

篮球资讯达人
2025-11-08 11:12:15
全球都在看中国将如何救援航天员! 俄罗斯和美国9个月, 中国多久

全球都在看中国将如何救援航天员! 俄罗斯和美国9个月, 中国多久

梁讯
2025-11-06 10:09:04
邻居偷电遭报复,我调压至380V,电器全毁!

邻居偷电遭报复,我调压至380V,电器全毁!

爱下厨的阿酾
2025-11-08 02:42:42
台海红线作投名状?新西兰斐济试探北京底线,中方强硬交涉

台海红线作投名状?新西兰斐济试探北京底线,中方强硬交涉

王姐懒人家常菜
2025-11-08 12:57:33
苏丹法希尔陷落后屠城,医院460人惨遭死,卫星揭穿杀戮背后真相

苏丹法希尔陷落后屠城,医院460人惨遭死,卫星揭穿杀戮背后真相

花小猫的美食日常
2025-11-08 13:44:09
侄子结婚没请我,我回家睡觉,晚上堂哥连打20个电话:没人结账了

侄子结婚没请我,我回家睡觉,晚上堂哥连打20个电话:没人结账了

船长与船1
2025-11-08 09:14:24
斯诺克赛程:希金斯德比迎战7冠王,手握2优势,会师吴宜泽冲冠?

斯诺克赛程:希金斯德比迎战7冠王,手握2优势,会师吴宜泽冲冠?

刘姚尧的文字城堡
2025-11-08 08:17:41
生涯5年全部无缘季后赛,匿名球探:三球天赋异禀但对篮球不认真

生涯5年全部无缘季后赛,匿名球探:三球天赋异禀但对篮球不认真

懂球帝
2025-11-08 13:05:03
江苏省各地2025年前3季度GDP成绩:苏州稳健,苏北城市成为新动力

江苏省各地2025年前3季度GDP成绩:苏州稳健,苏北城市成为新动力

Data居士
2025-11-08 10:29:04
社保最后五年有多关键?直接决定你退休金领2000还是5000!

社保最后五年有多关键?直接决定你退休金领2000还是5000!

慧眼看世界哈哈
2025-11-07 10:52:22
俄乌战场经验拿去偷猎?江西多人被刑拘!无人机坠箭直接打穿野鹿

俄乌战场经验拿去偷猎?江西多人被刑拘!无人机坠箭直接打穿野鹿

军武次位面
2025-11-07 14:54:29
天冷了,少吃猪肉多吃它,比鱼肉便宜,比牛羊肉鲜美,随手一炒

天冷了,少吃猪肉多吃它,比鱼肉便宜,比牛羊肉鲜美,随手一炒

阿龙美食记
2025-11-08 14:10:15
开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

Ck的蜜糖
2025-11-06 10:48:53
董卿的现状,老父亲后悔自责:她嫁密春雷,是我没拦住

董卿的现状,老父亲后悔自责:她嫁密春雷,是我没拦住

君好伴读
2025-09-22 12:49:18
2025-11-08 15:08:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5215文章数 64595关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

特朗普:南非对白人搞"屠杀" G20峰会美国不去了

头条要闻

特朗普:南非对白人搞"屠杀" G20峰会美国不去了

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

梁婷为辛芷蕾发声:没什么可质疑的

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

教育
艺术
手机
数码
本地

教育要闻

张桂梅:宋佳年轻漂亮,但“有些脾气还是像我”

艺术要闻

邱振中教授热衷丑书,被喷“高等学府里的混混”,冤枉他吗?

手机要闻

IDC发Q3国内数据,vivo夺冠,苹果第二

数码要闻

每周一部原创:苹果高管透露 2026 年 Apple TV 内容“轰炸”计划

本地新闻

这届干饭人,已经把博物馆吃成了食堂

无障碍浏览 进入关怀版