网易首页 > 网易号 > 正文 申请入驻

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

0
分享至

本文介绍了DAT,首个室外无人机主动跟踪基准,用于评估智能体在开放世界主动跟踪任务上的跨场景跨域能力。实验结果表明,现有的视觉主动跟踪模型在复杂场景中的特征提取能力有限,且其感知范围和应用场景受限于固定前向视角。本文深入分析并理论证明了固定前向视角的局限性,并提出了基于强化学习的R-VAT模型。该模型能适应可变视角,实验证明了其高度有效性。

论文标题: A Cross-Scene Benchmark for Open-World Drone Active Tracking 论文链接: https://arxiv.org/pdf/2412.00744 源码链接: https://github.com/SHWplus/DAT_Benchmark 文档链接: https://dat-benchmark.tech 主页链接: https://dat-benchmark.framer.website/

一、引言

图1:DAT基准的场景示例图1.1 什么是视觉主动跟踪?

视觉主动是一种基于视觉观测,控制观测系统运动,从而实现自动跟踪物体的任务设定。相比之下,被动视觉跟踪则是在固定相机位姿的情况下,逐帧主动预测目标边界框。视觉跟踪被广泛用于现实场景,例如:安保巡检和无人机跟踪拍摄等。

视觉主动跟踪方法主要分成两阶段VAT方法基于强化学习的VAT方法,两阶段VAT利用目标跟踪模型预测物体位置,再利用控制模型生成控制信号。该方法主要受限于大量的人力标注成本以及跨场景时控制模型的参数调校。而基于强化学习的VAT方法则是利用强化学习算法,直接根据图像输出控制信号,具有较好的适应性。

1.2 基于强化学习的视觉主动跟踪智能体

最近,强化学习算法被越来越多地用于VAT任务,智能体在仿真环境中利用强化学习算法进行数据采集和模型训练。尽管近期提出的强化学习方法在对应的仿真环境中初步验证了强化学习在VAT任务上的可行性,但仍面临三大局限:(1)缺乏统一的基准。当前的仿真环境范围小,复杂度低,数量有限,无法充分验证智能体的能力。且现有环境提供的跟踪器和目标数量有限,无法为不同任务提供基准。(2)对具有复杂干扰的大型环境适应能力差。开放世界视觉主动跟踪涉及大范围高动态环境,以及频繁的环境干扰。直接在复杂环境进行训练常常导致收敛速度慢,跟踪鲁棒性差的问题。(3)对行为多样的跟踪目标适应能力差。现有方法假设跟踪器采用固定水平前向视角,显著限制跟踪器感知范围,且导致奖励函数在视角变化时无法准确反映跟踪性能。

1.3 统一的无人机视觉主动跟踪智能体

统一的无人机视觉主动跟踪基准。DAT基准提供了6个场景4种天气共24个大范围高复杂度的仿真场景(见图1)。24个场景可以充分验证智能体跨场景和跨域适应的能力。此外,DAT提供了两种跟踪器,5大类共24种常见跟踪目标,且提供了即插即用的接口,可供用户自主配置模型和控制器。此外,DAT基准利用webots仿真软件搭建,具有真实的动力学仿真性能,并使用SUMO交通仿真软件管理目标行为,提供多样的目标路径和行为。

基于强化学习的视觉主动跟踪新方法。我们提出了基于强化学习的主动视觉跟踪方法。具体而言,我们设计了基于课程学习的训练策略,逐步提升智能体在大型复杂场景中的性能。此外,我们设计了以目标为中心的奖励函数,在不同视角下给智能体提供准确的跟踪性能评估。与现有方法基于物理距离的奖励函数设计不同,我们在图像平面进行奖励设计,避免距离图像中心更远的目标获得更高的奖励。

图2:无人机视觉主动跟踪流程

二、DAT Benchmark构建

图3:DAT基准统计信息与元素示例图2.1 多样场景构建

DAT基准提供的6种场景分别为:城镇(Citystreet),乡村(Village),大都市(Downtown),湖泊水域(Lake),农田(Farmland)和沙漠(Desert)。本文从区域面积楼房密度颜色丰富度道路密度复杂地形密度树木密度隧道密度七个方面建模现实场景的复杂度(6个环境的复杂度统计见图3(a))。其中,区域面积,楼房密度和色彩丰富度主要影响视觉背景信息;道路密度和复杂地形密度主要影响跟踪目标的行为,而树木密度和隧道密度则主要影响环境元素对跟踪目标的遮蔽程度。此外,DAT基准提供的四种天气包括晴天(day),黑夜(night),雾天(foggy)和雪天(snow)。其中,黑夜降亮度和光照均匀度,雾天降低视野能见度,雪天改变环境色调。

2.2 多样跟踪器和目标构建

本文提供了无人机和地面机器人作为备选的跟踪器,其中,无人机选择DJI Matrice 100作为默认机型。此外,DAT提供了6种常用的运动和视觉传感器(见图3(c)),包括相机,雷达,GPS,IMU,陀螺仪和加速度计。同时,DAT也提供了汽车,摩托车,行人,轮式机器人和足式机器人5类共24种常见的跟踪目标(见图3(d)),并提供了即插即用的接口可供用户更换自主设计的机器人模型和控制器。为建模真实场景下跟踪目标运行的随机性,DAT使用SUMO随机化跟踪目标种类和外观,并统一对其路径和行为进行管理。

三、R-VAT基线模型

3.1 基于课程学习的训练策略

本文利用强化学习PPO算法并设计了基于课程学习的训练策略,逐步提升智能体的性能,加快收敛速度。具体而言,课程学习分成两个阶段,在第一阶段中,跟踪目标的轨迹为直线,且环境中不存在遮蔽和复杂的干扰情况,智能体学习将目标保持在图像中心的任务意图。而在第二阶段中,智能体在视觉复杂,跟踪目标轨迹多样的情况下训练,基于第一阶段的任务理解,提升智能体的视觉泛化能力。

3.2 以目标为中心的奖励函数设计

图4:以目标为中心的奖励示意图

为准确反映在可变俯视视角下智能体的跟踪性能,本文提出了以目标为中心的奖励函数设计方法。与现有方法直接利用物理距离不同,本文获取了图像平面在地平面上的投影,并在图像层面进行奖励函数设计,确保距离图像中心更远的目标获得更高的奖励。具体而言,本文设计的奖励函数表达式为:

其中,x参数用于衡量目标点距离图像中心的远近。为进一步说明上述奖励函数的设计过程,我们提供了详细的坐标变换推导(具体见原论文4.3节)。此外,为了阐述本文以目标为中心的奖励设计的优越性以及基于固定前向视角设计下,利用物理距离进行奖励设计的局限性,本文理论证明了在固定前向视角下,基于距离的奖励函数设计与本文的设计等效。此外,我们还证明了在视角发生变化时,基于距离的奖励函数在x和y方向均无法正确反映跟踪性能。详细证明见原论文附录C.1节。

四、实验

4.1 实验设定

本文对比了我们提出的R-VAT与现有最佳方法在场景内跨场景以及跨域测试下的跟踪性能。具体而言,本文选择以6种场景的day天气作为训练场景,则场景内测试则是在训练场景中进行测试;跨场景测试是在其余的5种场景,相同天气情况下进行测试,而跨域测试则是在相同的场景,其余3种不同的天气情况下进行测试。本文选择使用累计奖励(CR)跟踪成功率(TSR)衡量智能体的性能,其中,CR衡量智能体将目标保持在图像中心点的性能,而TSR衡量智能体将目标保持在图像范围中的能力。

4.2 实验结果

表1:场景内和跨场景测试实验结果表(注:CR最大值为375)

场景内测试性能。本文提出的R-VAT模型相对于D-VAT模型在CR指标上提升 ,在TSR指标提升 。

跨场景测试性能。本文提出的R-VAT模型相对于D-VAT模型在CR指标上平均提升 ,在TSR指标上平均提升 。

表2:跨域测试实验结果表(注:CR最大值为375)

跨域测试性能。本文提出的R-VAT模型相对于D-VAT模型在CR指标上平均提升 ,在TSR指标上平均提升 。

五、结论与潜在影响

本文提出了针对无人机视觉主动跟踪任务的统一基准DAT,可用于测试智能体的跨域和跨场景性能。DAT基准提供了24个大型复杂的室外场景地图,建模了高保真的机器人动力学模型,并使用了真实的跟踪目标管理方案。此外,本文提出了强化学习的基准算法R-VAT。具体而言,该方法采用了课程学习训练策略,提升智能体在复杂环境中的性能;同时,我们设计了以目标为中心的奖励函数,准确反映跟踪器跟踪性能。实验表明,R-VAT方法性能显著优于现有最好的VAT方法。

DAT基准旨在推动无人机视觉主动跟踪研究的发展,其可能对以下关键领域产生重要的影响:(1)强化学习中的遗忘问题,(2)强化学习的鲁棒性问题,(3)多智能体强化学习,以及(4)从仿真到现实的迁移

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

鹤羽说个事
2026-05-28 23:03:03
饶颖:赵忠祥曾和我发生关系7年,他有特殊癖好,让我身心受伤害

饶颖:赵忠祥曾和我发生关系7年,他有特殊癖好,让我身心受伤害

妙知
2026-05-26 04:45:18
漫威亲手推翻10年布局?《复仇者联盟5》宣布“从零开始”重置整个宇宙

漫威亲手推翻10年布局?《复仇者联盟5》宣布“从零开始”重置整个宇宙

追星雷达站
2026-06-03 01:01:52
有望见证时隔24年夺冠!CBA总决赛G5球票全部售罄 二手平台卖疯了

有望见证时隔24年夺冠!CBA总决赛G5球票全部售罄 二手平台卖疯了

狼叔评论
2026-06-03 17:31:13
上海女子带2只帝王蟹让饭店加工,防止被掉包便做了记号,上菜后发现不是自己的,随后立即报警,并要求饭店索赔10万元。法院判了!

上海女子带2只帝王蟹让饭店加工,防止被掉包便做了记号,上菜后发现不是自己的,随后立即报警,并要求饭店索赔10万元。法院判了!

黎兜兜
2026-06-03 10:37:38
手里有100万现金存款算什么档次?银行员工吐露实情,结果很现实

手里有100万现金存款算什么档次?银行员工吐露实情,结果很现实

老特有话说
2026-06-02 16:07:00
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
当年三峡集团27亿欧元入股葡萄牙电力公司,如今发展得怎样?

当年三峡集团27亿欧元入股葡萄牙电力公司,如今发展得怎样?

柏拉图的诉说1
2026-06-02 20:01:55
纯爱战神具俊晔!守着大S骨灰项链,画250幅大S画像,这份痴情谁能懂

纯爱战神具俊晔!守着大S骨灰项链,画250幅大S画像,这份痴情谁能懂

八卦王者
2026-06-03 13:57:57
全球中东富豪,正疯狂把孩子送到中国,目的却不是旅游?

全球中东富豪,正疯狂把孩子送到中国,目的却不是旅游?

毒sir财经
2026-06-03 15:52:32
承诺“不限次数”,就该接住顾客的“天天来”

承诺“不限次数”,就该接住顾客的“天天来”

南风不及你温柔
2026-05-16 01:02:57
大换血!伊劳拉执掌利物浦后 阵中6人或将告别安菲尔德?

大换血!伊劳拉执掌利物浦后 阵中6人或将告别安菲尔德?

球事百科吖
2026-06-04 12:27:46
今天是“硬糖”,唐斯砍下18分12篮板,多次单打文班成功

今天是“硬糖”,唐斯砍下18分12篮板,多次单打文班成功

懂球帝
2026-06-04 11:49:51
世人只知“负荆请罪”,却不知长平之战后,廉颇和蔺相如的下场

世人只知“负荆请罪”,却不知长平之战后,廉颇和蔺相如的下场

掠影后有感
2026-06-03 09:21:41
“变废为宝”!落选秀也能打造成争冠拼图,细数在马刺逆袭的五人

“变废为宝”!落选秀也能打造成争冠拼图,细数在马刺逆袭的五人

麦子的篮球故事
2026-06-04 17:15:20
玄学提醒:人生的大忌,可要注意,一犯就穷,一错就衰

玄学提醒:人生的大忌,可要注意,一犯就穷,一错就衰

金沛的国学笔记
2026-06-04 11:29:56
马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

BB姬
2026-06-02 22:35:44
美国洛马怎么也没料到,没缴中国的990亿罚单,后果竟如此严重?

美国洛马怎么也没料到,没缴中国的990亿罚单,后果竟如此严重?

荷兰豆爱健康
2026-06-04 06:48:22
《主角》近尾声,令人讨厌角色出炉,果然真正的坏都是惯的

《主角》近尾声,令人讨厌角色出炉,果然真正的坏都是惯的

娱说瑜悦
2026-06-03 13:27:59
车市冰火两重天:纯电销量已占二分之一,有些燃油车半价也难卖

车市冰火两重天:纯电销量已占二分之一,有些燃油车半价也难卖

上观新闻
2026-06-03 21:52:30
2026-06-04 17:51:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2402文章数 596关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

女子花27万买的车4年后突然被扣押 交管部门:是"假车"

头条要闻

女子花27万买的车4年后突然被扣押 交管部门:是"假车"

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

家居
数码
亲子
旅游
手机

家居要闻

220平对味儿家 空间情绪宅

数码要闻

Intel表态锐炫显卡不会砍!但桌面玩家短期内等不到

亲子要闻

一顿半斤肉,12岁男孩体重超200斤,确诊糖尿病前期

旅游要闻

1.5亿人次复苏背后 入境游面临 “软实力”大考

手机要闻

手机自带投影仪!8849坦克5塞下17600mAh巨无霸电池

无障碍浏览 进入关怀版