网易首页 > 网易号 > 正文 申请入驻

云从科技发布全球首个百万级“空对空”无人机反无人机追踪基准

0
分享至

当追踪者和目标都在低空高速飞行,传统的视觉追踪算法还能跟得住吗?

近日,来自云从科技、上海交通大学、香港科技大学(广州)、中山大学、中国科学院信息工程研究所的联合研究团队发布了一项硬核工作——UAV-Anti-UAV。这是业界首个针对“空对空”(Air-to-Air)场景的百万级多模态反无人机视觉追踪基准,并提出了基于Mamba的强力基线MambaSTS。MambaSTS在UAV-Anti-UAV基准的全部5个指标上均取得最佳的性能,这是云从科技在多模态大模型方面的又一次技术突破。面对双重动态干扰,现有的SOTA表现如何?让我们一探究竟!


01引言:从“上帝视角”到“空中缠斗”

低空经济蓬勃发展的今天,无人机(UAV)的安全管控已成为全球关注的焦点。反无人机(Anti-UAV)技术应运而生。

然而,回顾现有的视觉追踪研究,我们发现了一个明显的任务盲区(Gap

  • 传统UAVTracking(空对地):无人机处于“上帝视角”拍摄地面的车辆或行人,虽然相机在动,但目标相对地面运动平稳。

  • 现有Anti-UAV(地对空):地面固定的云台/相机仰拍空中的无人机,观察者几乎静止,缺乏运动带来的剧烈抖动

如果是一架无人机在高速飞行中,去追踪另一架试图逃逸的敌对无人机呢?这种场景就像是电影里的空中缠斗(Dogfight)



图1:直观对比了Task1(UAVTracking)、Task2(Anti-UAV)和本文提出的Task3(UAV-Anti-UAV)。Task3中Observer和Target都在低空高速运动。

这就是本文提出的UAV-Anti-UAV(空对空)任务。这是一个双向动态系统:追踪者和目标都在低空高速运动。这带来了前所未有的挑战:严重的双重动态干扰(Dual-dynamicdisturbances)、极速的尺度变化、强烈的运动模糊以及频繁的视角切换。

02数据集:首个百万级、多模态、全场景基准

为了攻克这一难题,研究团队构建了首个大规模基准数据集UAV-Anti-UAVBenchmark。这不只是一个数据集,更是一个低空安全的标准测试床。

数据集由什么构成?

  • 规模庞大:包含1,810个视频序列,总帧数高达105帧,总时长近9.85小时。

  • 机型丰富:涵盖5大类目标,包括固定翼、多旋翼、垂直起降(VTOL)、第一人称视角(FPV)无人机和无人直升机

  • 多模态标注:不仅有精细的边界框(BoundingBox),还提供了自然语言描述(LanguagePrompts,支持视觉-语言追踪研究。

  • 细粒度属性:标注了15极具挑战的属性,如快速运动(FM)、光照变化(IV)、相似干扰物(SD)等。


图2:数据集中包含五种不同类型的无人机目标(固定翼、FPV、多旋翼、垂直起降、无人直升机)以及对应的语言描述。

到底有多难?

相比于现有的数据集,UAV-Anti-UAV是“地狱难度”。

  • 相对速度:该数据集的平均相对速度高达0.79,远超现有的UAV123(0.46)和Anti-UAV(0.72)等数据集。

  • 目标尺寸:包含大量微小目标(SmallObject),且由于距离变化,尺度变化(ScaleVariation)极其剧烈。


图3:硬核数据证明该数据集在运动强度上的独特性。

03方法:MambaSTS——时空语义的完美融合

面对如此高难度的任务,传统的Transformer由于计算复杂度高,难以处理超长序列;而普通的CNN又缺乏全局感知能力。为此,作者提出了新基线:MambaSTS

这是一个集成了空间(Spatial)、时间(Temporal)、语义(Semantic)学习的统一框架。其核心逻辑在于:利用Mamba(状态空间模型)的线性复杂度优势来建立视频级的长期上下文。


图4:模型主架构图,展示了多模态输入(图像+文本)、STSMamba模块以及层级化的特征提取过程。

核心创新点解读:

混合架构(HybridArchitecture)
·视觉端:利用分层视觉Transformer(HiViT)提取多尺度特征,捕捉空间细节。
·语言端:利用预训练的LanguageMamba提取语义特征,引入文本先验,帮助模型在模糊中“认出”目标。
时间Token传播(TemporalTokenPropagation)
这是本文的“杀手锏”。模型维护一个时间Token,像接力棒一样在帧与帧之间传递。
利用Mamba的选择性扫描机制,将历史帧中目标的轨迹演变和外观变化压缩进这个Token中。这仿佛让模型拥有了“视频记忆”,即便目标被遮挡或模糊,也能基于记忆快速找回。
单向扫描机制(UnidirectionalScanning)

不同于处理静态图像的VisionMamba(Vim)使用双向扫描,MambaSTS针对视频追踪的因果特性(即当前状态只取决于过去),改进为单向扫描,更符合实时追踪逻辑。

04实验:50个追踪器大乱斗,谁是王者?

作者对50现代深度追踪算法进行了全面评测,涵盖了CNN、Transformer、Mamba以及多模态算法(如OSTrack,MixFormer,MambaTrack,CiteTracker等)。

总体战况

  • MambaSTS遥遥领先:在所有指标上均取得第一,AUC达到0.437,mACC达到0.443,比第二名高出6.6个百分点。

  • 任务难度极大:即便是SOTA的MambaSTS,成功率也仅为40%出头,而所有追踪器的平均AUC仅为0.30左右。这说明UAV-Anti-UAV领域仍是一片蓝海,挑战巨大!


图5:AUC、Precision等指标的曲线图,MambaSTS的曲线(最上方)直观体现了其优势。


图6:50个追踪器的mACC排名散点图,MambaSTS位于右上角,大幅领先。

属性分析:哪些场景最难搞?

通过对15个属性的细分测试,研究发现:

  • MambaSTS的强项:在快速运动(FM)、运动模糊(MB)、小物体(SO)等属性上表现稳健,得益于其强大的时序建模能力。

  • 共同的弱点:在光照变化(IV)全遮挡(FO)场景下,所有模型(包括MambaSTS)都表现挣扎,成功率低于0.15。这指明了未来的优化方向。


图7:具有代表性的属性子图(如FastMotion,MotionBlur,FullOcclusion)。

泛化能力验证

除了在自家数据集上表现出色,MambaSTS在传统的UAVTracking数据集(如UAV123,VisDrone)和地面Anti-UAV数据集上,同样取得了SOTA性能。这证明了该架构并非“过拟合”,而是真正掌握了时空特征的精髓。

05总结与展望

UAV-Anti-UAV任务的提出,标志着低空安全研究向实战化迈出了重要一步。

  • 新任务:填补了空对空动态追踪的空白。

  • 新数据:百万级规模,多模态标注,为社区提供了标准测试床。

  • 新基线:MambaSTS证明了状态空间模型在长序列动态追踪中的巨大潜力。

虽然MambaSTS表现出色,但距离解决全天候、全自主的空中拦截仍有距离(例如缺乏红外/LiDAR数据,且目前为离线训练)。挑战已经摆在面前,各位开发者,你们准备好迎接“空战”了吗?

开源地址:

https://github.com/983632847/Awesome-Multimodal-Object-Tracking

  • 参考论文:ChunhuiZhang,LiLiu,ZhipengZhang,YongWang,HaoWen,XiZhou,ShimingGe,YanfengWang.“HowFarareModernTrackersfromUAV-Anti-UAV?AMillion-ScaleBenchmarkandNewBaseline”,arXiv,2025.

  • 立即下载:

https://arxiv.org/abs/2512.07385

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

牛牛叨史
2026-01-06 12:59:43
中国民众呼声高涨:既然美国能活捉马杜罗,大陆为何不抓赖清德?

中国民众呼声高涨:既然美国能活捉马杜罗,大陆为何不抓赖清德?

博览历史
2026-01-04 18:50:59
狂卖10亿,登时代周刊,前大疆工程师,靠一把无弦吉他封神

狂卖10亿,登时代周刊,前大疆工程师,靠一把无弦吉他封神

财叔
2026-01-02 21:20:52
江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

台州交通广播
2026-01-07 06:53:59
中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

知法而形
2026-01-07 16:52:08
机械耐操性不足!泰国士兵对VT-4坦克的吐槽给咱们提了个醒

机械耐操性不足!泰国士兵对VT-4坦克的吐槽给咱们提了个醒

瞩望云霄
2026-01-07 09:31:38
比商业航天还猛?核聚变密度极限被突破   10大隐形冠军深度卡位

比商业航天还猛?核聚变密度极限被突破 10大隐形冠军深度卡位

元芳说投资
2026-01-08 06:00:12
孙俪在上海襄阳北路拍戏,封路拍摄,引起路人不满

孙俪在上海襄阳北路拍戏,封路拍摄,引起路人不满

凌风的世界观
2026-01-06 15:40:17
天助阿森纳:1-1,英超第2遭英超第10逼平,28岁日本球星破门救主

天助阿森纳:1-1,英超第2遭英超第10逼平,28岁日本球星破门救主

侧身凌空斩
2026-01-08 05:25:59
中国留学生讲述“日本梅毒扩散”:东京病例下降,但其他城市病例增多,自己接受检测被口头告知结果

中国留学生讲述“日本梅毒扩散”:东京病例下降,但其他城市病例增多,自己接受检测被口头告知结果

极目新闻
2026-01-07 15:34:59
23岁中国女导演赖宇晴
已确认在柬埔寨非正常死亡

23岁中国女导演赖宇晴 已确认在柬埔寨非正常死亡

岁月有情1314
2026-01-08 07:37:09
山东一闲置水井突喷热水变“温泉”,村民称水温有三四十摄氏度,仅持续了24小时,当地:和降水较多有关

山东一闲置水井突喷热水变“温泉”,村民称水温有三四十摄氏度,仅持续了24小时,当地:和降水较多有关

极目新闻
2026-01-07 15:54:21
广州小学生被抽血事件:告诉爸妈就扣小红花

广州小学生被抽血事件:告诉爸妈就扣小红花

每日一见
2026-01-02 12:21:28
直击河北农民取暖:“烧不起”的冬天

直击河北农民取暖:“烧不起”的冬天

凤凰网财经
2026-01-07 22:52:26
广州一网红餐厅直播顾客用餐,网友质疑侵犯隐私:怎么不直播后厨?门店回应

广州一网红餐厅直播顾客用餐,网友质疑侵犯隐私:怎么不直播后厨?门店回应

扬子晚报
2026-01-07 23:37:25
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
为什么会挪用老百姓的钱?

为什么会挪用老百姓的钱?

生命可以承受之轻
2026-01-06 13:12:26
谁给了这些骗子的胆量,让其敢如此大胆,长期招摇撞骗?

谁给了这些骗子的胆量,让其敢如此大胆,长期招摇撞骗?

青锋看天下
2026-01-07 08:30:03
四川省煤炭产业集团原副总经理张万松被开除党籍

四川省煤炭产业集团原副总经理张万松被开除党籍

界面新闻
2026-01-07 17:34:46
马杜罗现状曝光,特朗普通告中俄,34国收到通知,重头戏刚开始

马杜罗现状曝光,特朗普通告中俄,34国收到通知,重头戏刚开始

来科点谱
2026-01-08 09:04:13
2026-01-08 10:07:00
云从科技
云从科技
更高效人机协同解决方案提供商
410文章数 280关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

旅游
时尚
家居
艺术
军事航空

旅游要闻

初冬京郊:斑斓画卷徐徐展开

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

家居要闻

宁静不单调 恰到好处的美

艺术要闻

你不知道的“山麻纸”:书写中竟藏着七重门的秘密!

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版