速度涨 13%、精度提 1.9AP！HA-DETR：用卷积换掉解码器自注意力，轻量实时检测再进化|编码器|检测器|detr

速度涨 13%、精度提 1.9AP！HA-DETR：用卷积换掉解码器自注意力，轻量实时检测再进化

2026-06-19 13:53:15　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：计算机视觉研究院）

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC13247064/pdf/41598_2026_Article_48909.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文提出HA-DETR—— 一种融合卷积与 Transformer 的混合架构检测器，专门针对资源受限场景优化，相关成果已发表于《Scientific Reports》。

PART/1

核心洞察

哪些注意力可以 “省”？

团队先对 RT-DETR 做了逐层延迟剖分，发现解码器占了整体近一半的推理耗时，其中仅解码器自注意力就吃掉了 10.2% 的总延迟。

【RT-DETR-R50 各模块逐层执行耗时与占比】

那是不是所有注意力模块都能替换？团队设计了三组消融实验逐一验证：

替换编码器内的注意力模块：精度基本持平，但速度收益很小
替换解码器的自注意力：精度略有下降，但延迟大幅降低 13.2%，性价比极高
替换解码器的交叉注意力：速度虽快，但精度暴跌 15.8AP，完全不可接受

【四种架构变体示意图（编码器 / 解码器不同模块替换方案）】

最终结论非常明确：交叉注意力是性能底线，绝对不能动；解码器自注意力是速度瓶颈，最适合用卷积替代。这就是 HA-DETR 混合架构的核心设计逻辑。

PART/2

HA-DETR 架构

卷积 + Transformer 的精准融合

HA-DETR 整体由三部分组成：骨干网络、高效混合编码器、混合解码器，核心创新集中在解码器与损失函数设计上。

【HA-DETR 整体网络架构示意图】

1. 混合编码器：保留全局语义能力

编码器沿用 RT-DETR 的成熟设计，由基于注意力的尺度内特征交互（AIFI）模块和基于卷积的跨尺度特征融合（CCFF）模块组成，兼顾高层语义与底层细节，输出多尺度特征图。

2. 混合解码器：卷积做精炼，注意力做全局

这是论文最核心的设计：

用卷积自交互模块（SIM）替换原解码器的自注意力，通过深度可分离卷积 + 1×1 卷积的组合，高效完成查询之间的局部交互与特征精炼，计算量远低于自注意力
完整保留多尺度可变形交叉注意力，让查询与全局图像特征做交互，保证检测精度不滑坡

简单来说，就是 “简单的交互交给卷积省算力，复杂的特征对齐交给注意力保效果”，两者串行级联，逐层优化查询。

3. 解耦 Gamma 损失（DGL）：解决训练节奏不匹配

混合架构带来了新的训练问题：卷积分支收敛快，会快速生成大量低质量候选框；注意力分支收敛慢，高质量预测来得晚。两者节奏不一致，会加剧正负样本不平衡。

为此团队提出了解耦 Gamma 损失（DGL），用两个独立的调节参数：

γ_pos：控制正样本的质量权重，引导模型聚焦高 IoU 目标
γ_neg：独立控制负样本的抑制强度，适配卷积分支产生的大量易分负样本

相比 Focal Loss、Varifocal Loss 等方案，DGL 的解耦设计更灵活，完美适配混合架构的特殊训练动态。

PART/3

实验

所有实验均在 COCO 2017 验证集上完成，FPS 基于 V100 GPU 测试。

【主流检测器 COCO 性能全对比表】

1. 核心性能全面超越基线

轻量骨干（ResNet-18）
：48.4 AP / 68 FPS，比 RT-DETR-R18 精度高 1.9AP、速度快 13%；比纯卷积方案 DECO-R18 精度高出 7.9AP
标准骨干（ResNet-50）
：53.5 AP / 35 FPS，与 RT-DETRv2、DEIM 等最新高效 DETR 方案持平
移动端骨干（MobileNetV3-small）
：仅 29 GFLOPs，推理速度达 97 FPS，适合边缘设备部署

【各检测器精度 - 延迟 trade-off 对比散点图】

2. 小目标检测额外加分

得益于卷积对高分辨率细节的保留 + 注意力的全局上下文建模，HA-DETR 在小目标检测上表现突出：

ResNet-18 版本 APs 达 31.8，优于 RT-DETRv2-R18（30.2）与 DEIM-R18（30.4）
ResNet-50 版本 APs 达 37.1，比对比方案高出 1.1~1.8 个点

3. 消费级显卡也能跑

在民用 RTX 3060 显卡上，HA-DETR-R18 仍能跑出 45 FPS，比基线 RT-DETR-R18 快 6 FPS，速度优势在低端硬件上同样成立，落地性更强。

PART/4

总结与展望

HA-DETR 没有走 “全 Transformer” 或 “全卷积” 的极端，而是通过严谨的消融实验，精准找到了速度与精度的最优平衡点 —— 用卷积替换解码器自注意力保速度，保留交叉注意力保精度，再配合定制化的 DGL 损失解决训练不匹配问题。

这套方案尤其适合轻量骨干、资源受限的部署场景，为端到端实时检测提供了一条非常务实的架构优化思路。

论文也指出了未来方向：进一步提升大骨干下的收益、完善 ARM 等边缘端的部署验证、探索混合标签分配策略进一步提升精度。

有相关需求的你可以联系我们！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.