来源:市场资讯
(来源:计算机视觉研究院)
计算机视觉研究院
![]()
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://pmc.ncbi.nlm.nih.gov/articles/PMC13247064/pdf/41598_2026_Article_48909.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
本文提出HA-DETR—— 一种融合卷积与 Transformer 的混合架构检测器,专门针对资源受限场景优化,相关成果已发表于《Scientific Reports》。
PART/1
核心洞察
哪些注意力可以 “省”?
团队先对 RT-DETR 做了逐层延迟剖分,发现解码器占了整体近一半的推理耗时,其中仅解码器自注意力就吃掉了 10.2% 的总延迟。
![]()
【RT-DETR-R50 各模块逐层执行耗时与占比】
那是不是所有注意力模块都能替换?团队设计了三组消融实验逐一验证:
替换编码器内的注意力模块:精度基本持平,但速度收益很小
替换解码器的自注意力:精度略有下降,但延迟大幅降低 13.2%,性价比极高
替换解码器的交叉注意力:速度虽快,但精度暴跌 15.8AP,完全不可接受
![]()
【四种架构变体示意图(编码器 / 解码器不同模块替换方案)】
最终结论非常明确:交叉注意力是性能底线,绝对不能动;解码器自注意力是速度瓶颈,最适合用卷积替代。这就是 HA-DETR 混合架构的核心设计逻辑。
PART/2
HA-DETR 架构
卷积 + Transformer 的精准融合
HA-DETR 整体由三部分组成:骨干网络、高效混合编码器、混合解码器,核心创新集中在解码器与损失函数设计上。
![]()
【HA-DETR 整体网络架构示意图】
1. 混合编码器:保留全局语义能力
编码器沿用 RT-DETR 的成熟设计,由基于注意力的尺度内特征交互(AIFI)模块和基于卷积的跨尺度特征融合(CCFF)模块组成,兼顾高层语义与底层细节,输出多尺度特征图。
2. 混合解码器:卷积做精炼,注意力做全局
这是论文最核心的设计:
用卷积自交互模块(SIM) 替换原解码器的自注意力,通过深度可分离卷积 + 1×1 卷积的组合,高效完成查询之间的局部交互与特征精炼,计算量远低于自注意力
完整保留多尺度可变形交叉注意力,让查询与全局图像特征做交互,保证检测精度不滑坡
简单来说,就是 “简单的交互交给卷积省算力,复杂的特征对齐交给注意力保效果”,两者串行级联,逐层优化查询。
3. 解耦 Gamma 损失(DGL):解决训练节奏不匹配
混合架构带来了新的训练问题:卷积分支收敛快,会快速生成大量低质量候选框;注意力分支收敛慢,高质量预测来得晚。两者节奏不一致,会加剧正负样本不平衡。
为此团队提出了解耦 Gamma 损失(DGL),用两个独立的调节参数:
γ_pos:控制正样本的质量权重,引导模型聚焦高 IoU 目标
γ_neg:独立控制负样本的抑制强度,适配卷积分支产生的大量易分负样本
相比 Focal Loss、Varifocal Loss 等方案,DGL 的解耦设计更灵活,完美适配混合架构的特殊训练动态。
PART/3
实验
所有实验均在 COCO 2017 验证集上完成,FPS 基于 V100 GPU 测试。
![]()
【主流检测器 COCO 性能全对比表】
1. 核心性能全面超越基线
- 轻量骨干(ResNet-18)
:48.4 AP / 68 FPS,比 RT-DETR-R18 精度高 1.9AP、速度快 13%;比纯卷积方案 DECO-R18 精度高出 7.9AP
- 标准骨干(ResNet-50)
:53.5 AP / 35 FPS,与 RT-DETRv2、DEIM 等最新高效 DETR 方案持平
- 移动端骨干(MobileNetV3-small)
:仅 29 GFLOPs,推理速度达 97 FPS,适合边缘设备部署
![]()
【各检测器精度 - 延迟 trade-off 对比散点图】
2. 小目标检测额外加分
得益于卷积对高分辨率细节的保留 + 注意力的全局上下文建模,HA-DETR 在小目标检测上表现突出:
ResNet-18 版本 APs 达 31.8,优于 RT-DETRv2-R18(30.2)与 DEIM-R18(30.4)
ResNet-50 版本 APs 达 37.1,比对比方案高出 1.1~1.8 个点
3. 消费级显卡也能跑
在民用 RTX 3060 显卡上,HA-DETR-R18 仍能跑出 45 FPS,比基线 RT-DETR-R18 快 6 FPS,速度优势在低端硬件上同样成立,落地性更强。
PART/4
总结与展望
HA-DETR 没有走 “全 Transformer” 或 “全卷积” 的极端,而是通过严谨的消融实验,精准找到了速度与精度的最优平衡点 —— 用卷积替换解码器自注意力保速度,保留交叉注意力保精度,再配合定制化的 DGL 损失解决训练不匹配问题。
这套方案尤其适合轻量骨干、资源受限的部署场景,为端到端实时检测提供了一条非常务实的架构优化思路。
论文也指出了未来方向:进一步提升大骨干下的收益、完善 ARM 等边缘端的部署验证、探索混合标签分配策略进一步提升精度。
![]()
有相关需求的你可以联系我们!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.