来源:市场资讯
(来源:计算机视觉研究院)
计算机视觉研究院
![]()
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://pmc.ncbi.nlm.nih.gov/articles/PMC12397394/pdf/41598_2025_Article_16878.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
本文基于 YOLOv8 提出了一套专为无人机小目标检测设计的轻量化方案 ——BPD-YOLO。它通过重构特征金字塔网络,在 VisDrone 数据集上实现了mAP50 提升 2.8%,同时参数量从 2.92M 砍到 1.50M,真正做到了又轻又准。
PART/1
痛点
无人机航拍图像分辨率高、细节多,但小目标占比极高,检测难度远大于普通场景,核心有三大痛点:
:小目标仅占几个像素,极易和背景混淆,漏检率高;
:人群、车流密集排布,相互遮挡容易造成误检;
:同一张图里大小目标并存,普通模型很难兼顾。
![]()
【不同数据集的大 / 中 / 小 / 极小目标分布对比表】
从数据分布就能直观看到:普通数据集中大目标占比超 68%,而无人机专用数据集里,极小 + 小目标占比超过 68%,TinyPerson 数据集更是 80% 以上都是极小目标。
传统的 FPN 特征金字塔虽然能融合深浅层特征,但存在两个硬伤:一是深层大量堆叠残差块,计算冗余严重;二是深浅层直接融合存在 “语义鸿沟”,深层抽象语义会冲散浅层细节,反而拖累小目标检测效果。
PART/2
创新
针对上述问题,团队设计了全新的L-FPN(轻量化特征金字塔网络),替代 YOLOv8 原生的 FPN+PANet 结构,以此为基础打造了 BPD-YOLO 检测器。
![]()
【BPD-YOLO 整体网络架构图】
整个方案围绕 “浅层保细节、深层做融合、减参不减效” 的思路,核心包含四大关键设计:
1. 双阶段渐进特征融合机制(DAFF)
不同于 AFPN 把浅层细节往深层传的思路,L-FPN 反向优化信息流,让深层语义高效流向浅层,专门服务小目标检测。
第一阶段:并行融合深浅层特征,先生成中间语义层,缩小语义鸿沟;
第二阶段:渐进式整合中间层特征,逐步把深层语义注入浅层;
连接策略:深层稀疏连接、浅层密集连接,把计算资源集中在对小目标更重要的高分辨率浅层上。
![]()
【AFPN 与 L-FPN 结构对比示意图】
2. 深度空间金字塔融合模块(DSPF)
用 DSPF 替代深层的残差块,专门负责语义融合,大幅降低计算量:
用深度可分离空洞卷积替代传统池化,在不增加参数量的前提下扩大感受野;
采用 1/2/3 渐进式膨胀率,兼顾局部细节与全局上下文,避免小目标信息丢失;
相比残差块,减少了大量通道交互,专注多尺度语义整合,更适配小目标检测。
![]()
【L-FPN 详细架构图(含 DSPF 模块内部结构)】
3. 解耦式特征提取 - 语义整合机制(DEI)
把 “特征提取” 和 “语义融合” 拆解开,分层执行:
浅层特征层:保留传统残差块,充分提取小目标的细节与位置信息;
深层特征层:替换为 DSPF 模块,只负责高效语义融合与多尺度表征;
避免了深层残差块的计算浪费,同时减少深层特征对浅层细节的干扰。
4. 轻量化动态上采样 DySample
替换传统的双线性 / 最近邻上采样,采用 DySample 动态调整采样点位置:
根据特征内容自适应调整上采样权重,让模型更聚焦目标区域,减少背景干扰;
上采样精度媲美 CARAFE,但参数量和计算量更低,和 L-FPN 适配性极强。
![]()
【DySample 模块结构示意图】
PART/3
实验
团队在无人机检测经典数据集 VisDrone2019 和极小目标数据集 TinyPerson 上做了全面实验,基线为 YOLOv8n+P2。
1. VisDrone 数据集:全面超越基线与同类方案
![]()
【VisDrone2019 数据集各模型性能对比表】
核心数据亮点:
对比基线 YOLOv8n+P2:mAP50 从 35.3% 提升至 38.1%(+2.8%),mAP50-95 提升 1.4%,同时 GFLOPs 从 12.2 降到 11.4,参数量从 2.92M 降至 1.50M(减幅近 50%);
对比 YOLOv8s:BPD-YOLOn 计算量降低 60%,精度基本持平;同计算量下,BPD-YOLOs 比 YOLOv8s+P2 的 mAP50 高出 2.1%;
对比 BiFPN、AFPN 等经典改进 FPN:在精度相当或更优的前提下,参数量和计算量大幅降低。
可视化效果上,BPD-YOLO 显著减少了密集人群、远处小目标的漏检,对遮挡目标的识别也更准确。
![]()
【VisDrone 测试集检测效果与热力图对比】
![]()
【基线与 BPD-YOLO 的归一化混淆矩阵对比】
2. TinyPerson 数据集:极端小目标场景依然能打
TinyPerson 的目标尺寸仅 2-20 像素,是极小目标检测的试金石。
![]()
【TinyPerson 数据集实验结果表】
相比基线,BPD-YOLO 在参数量和计算量双降的前提下,mAP50 提升 1.1%,密集人群的漏检大幅减少,复杂背景下的误检也显著降低。
![]()
【TinyPerson 数据集检测效果可视化对比】
此外团队还验证了 L-FPN 的泛化性:搭配 YOLOv5、YOLOv10 以及 FasterNet、MobileNetV4 等多种骨干网络,均能稳定涨点并降低计算量,适配性极强。
PART/4
落地
BPD-YOLO 的核心贡献可以概括为三点:
提出 DAFF 双阶段渐进融合与 DEI 解耦机制,高效弥合深浅层语义鸿沟;
设计 DSPF 轻量化模块,替代深层残差块,实现减参增效;
构建 L-FPN 特征金字塔,打造出专为无人机视角优化的 BPD-YOLO 检测器。
这套方案在保证检测精度的同时大幅压缩了模型体积,非常适合无人机、嵌入式等资源受限的边缘场景落地。团队表示,后续会继续优化轻量化设计,进一步平衡推理速度与检测精度。
有相关需求的你可以联系我们!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.