文章来源:计算机书童。
嘿,计算机视觉领域的小伙伴们!今天要给大家介绍一篇在红外小目标检测领域超厉害的论文——《Frequency-Gradient Collaborative Network With Channel Correction and Background Guidance for Infrared Small Target Detection》(基于通道校正和背景引导的频率-梯度协作网络用于红外小目标检测)。这篇论文的作者是Daxing Zhao、Heng Sun、Yuxuan Hu和Xiangzhi Bai,他们提出的FGCBNet网络在复杂场景下的红外小目标检测性能相当出色,快来一起看看吧!
论文信息 题目:Frequency-Gradient Collaborative Network With Channel Correction and Background Guidance for Infrared Small Target Detection 基于通道校正和背景引导的频率-梯度协作网络用于红外小目标检测 作者:Daxing Zhao, Heng Sun, Yuxuan Hu, Xiangzhi Bai 红外小目标检测有多难?
红外成像凭借其出色的隐蔽性、全天候可操作性和抗干扰能力,在很多领域都有重要应用。但红外小目标检测可是个老大难问题。
首先,红外图像对比度低,目标和背景的差异不明显,小目标很容易被背景“淹没”。而且小目标在图像中占比特别小,通常只有几个像素,特征非常微弱,提取起来难度极大。
其次,复杂背景的干扰太严重。在低信噪比的红外图像中,背景杂波占主导,那些和目标相似的背景元素很容易让检测算法“看花眼”,导致误报。
再者,很多现有方法对背景上下文信息利用不够,一心只盯着目标特征提取,在复杂背景下就很难准确检测到小目标了。
FGCBNet横空出世,四大创新点解决难题
面对这些挑战,作者们提出了FGCBNet网络,它有四个非常亮眼的创新点,咱们一个一个来看。
创新点一:梯度感知频率注意力模块(GFAM)
这个模块可厉害了,它就像给网络装上了“火眼金睛”,能同时从空间域和频域提取目标特征。
GFAM由多方向梯度增强器(MOGB)和可学习频率先验模块(LFPM)组成。
MOGB就像一个敏锐的“边缘探测器”,它利用小目标和周围环境的梯度特性,通过四个方向(0°、45°、90°、135°)的一阶和二阶导数滤波,增强目标的边缘信息,让模糊的目标轮廓变得清晰起来。
而LFPM则擅长在频域“大显身手”。我们知道,背景通常对应低频信息,小目标多是高频信息。LFPM通过离散余弦变换(DCT)将特征图转换到频域,用可学习的参数突出目标的高频分量,抑制背景的低频分量,这样就能更有效地把目标从背景中“揪”出来。
![]()
创新点二:自校正通道注意力模块(SCAM)
红外图像中,不同通道的特征差异很大,这很容易导致误检测。SCAM就像一个“调节器”,能根据不同通道特征的分布特点,自适应地调整通道相关性,校正通道之间的特征偏差。
它先把输入特征分成两部分,一部分通过多分支处理进行自校准和特征增强,另一部分进行卷积处理,最后把两部分结果结合起来,再通过卷积块注意力模块(CBAM)细化,这样就能让网络更关注那些重要的特征通道,减少误报。
![]()
创新点三:空间-通道增强解码器(SCED)
浅层特征有丰富的空间细节,适合检测小目标;深层特征包含更多背景上下文语义信息,感受野大。SCED就像一个“融合大师”,能把这两种特征完美融合。
它通过自上而下的全局通道注意力模块和自下而上的局部点注意力模块,整合深层语义信息和浅层空间位置信息,利用背景上下文语义来增强目标的显著性,让目标在复杂背景中更“突出”。
![]()
创新点四:多损失函数融合
损失函数对网络的训练效果影响很大。作者们采用多尺度监督融合策略,把SoftIoU损失函数、基于归一化Wasserstein距离(NWD)的回归损失和智能焦点损失(SFL)结合起来。
SoftIoU损失有助于提高目标定位精度,NWD损失让模型在小目标检测中更稳定,SFL则能让模型更关注难检测的样本。这三种损失函数“强强联手”,让网络学习效果更好,收敛更快,在检测率和误报率之间达到最佳平衡。
FGCBNet整体架构大揭秘
说了这么多模块,咱们来看看FGCBNet的整体架构。它采用编码器-解码器结构,就像一条“流水线”,把图像从输入到输出的处理过程安排得明明白白。
首先,编码器用五组残差块提取五个特征图。前四个特征层经过GFAM和SCAM处理,统一尺度。第五层通过长程跳跃连接到SCED。然后,SCED分层整合各层特征生成显著性图,最后通过分割头处理得到只包含小目标的二值图像。
![]()
实验结果惊艳,实力碾压众多方法
作者们在四个公开数据集(NUDT-SIRST、IRSTD-1k、IRSTD-Air、IRSTD-real)上做了大量实验,把FGCBNet和11种现有方法进行对比,结果相当亮眼。
从可视化结果来看,在单目标和多目标场景中,FGCBNet都能准确检测到目标,漏检率和误报率都很低。相比之下,很多其他方法要么漏检目标,要么把背景误判为目标。
![]()
在定量指标上,FGCBNet在mIoU、nIoU、F1等指标上都取得了最佳成绩。比如在NUDT-SIRST数据集上,mIoU比次优方法提高了2.19%;在IRSTD-Air数据集上,mIoU提高了5.80%。而且它的ROC曲线在各种误报率条件下都处于最高位置,说明在低误报率的同时能保持高检测率。
消融实验也证明了各个模块的有效性。添加MOGB、LFPM和SCAM后,模型性能一步步提升,特别是SCAM,能显著降低误报率。
总结
FGCBNet通过梯度感知频率注意力模块、自校正通道注意力模块、空间-通道增强解码器以及多损失函数融合,完美解决了红外小目标检测中目标显著性低、背景杂波影响大、上下文线索利用不足等问题。
它在多个公开数据集上的出色表现,证明了其在复杂场景下检测红外小目标的强大能力,为红外小目标检测领域提供了一个非常有价值的新方法。相信未来这种双域协作和通道校正的思路,还会在更多计算机视觉任务中发光发热!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.