改进视觉Transformer：增强空间先验|显式|卷积|鲁棒性|新论文

分享至

Advancing Vision Transformer with Enhanced Spatial Priors

改进视觉Transformer：增强空间先验

摘要——

近年来，视觉 Transformer（ViT）在计算机视觉领域引起了广泛关注。然而，ViT 的核心组件自注意力（Self-Attention）缺乏显式的空间先验，且面临二次计算复杂度的问题，限制了其适用性。为了解决这些问题，我们提出了 RMT，这是一种具有显式空间先验的用于通用目的的鲁棒视觉骨干网络。RMT 利用曼哈顿距离衰减（Manhattan distance decay）来引入空间信息，并采用水平和垂直分解注意力方法来建模全局信息。建立在 RMT 优势的基础上，欧几里得增强视觉 Transformer（EVT） 是一个包含了几个关键改进的扩展版本。首先，EVT 使用更合理的欧几里得距离衰减来增强空间信息的建模，与 RMT 中使用的曼哈顿距离相比，能够更准确地表示空间关系。其次，EVT 放弃了 RMT 中特有的分解注意力机制，转而采用一种更简单的空间独立分组方法，为模型在控制每组内的 token 数量方面提供了更大的灵活性。通过这些改进，EVT 提供了一种更复杂且适应性更强的方法将空间先验整合到自注意力机制中，从而克服了与 RMT 相关的一些局限性，并进一步增强了其在各种计算机视觉任务中的适用性。在图像分类、目标检测、实例分割和语义分割上的大量实验表明，EVT 表现出卓越的性能。在没有额外训练数据的情况下，EVT 在 ImageNet-1k 上实现了 86.6% 的 top-1 准确率。

索引术语——视觉 Transformer，空间先验，Token 分组。

1 引言

视觉 Transformer（ViT）[1] 已成为研究界备受推崇的视觉架构。尽管如此，它仍面临几个重大问题。ViT 的核心模块自注意力（Self-Attention）本质上缺乏显式的空间先验，而这是卷积所具备的特征。此外，自注意力的二次计算复杂度在尝试建模全局信息时会导致相当大的计算成本，从而限制了其实际应用。

多项研究试图缓解这些挑战[2]–[8]。例如，Swin Transformer [3] 采用窗口操作来划分用于自注意力的 token。该技术不仅降低了计算开销，还通过使用窗口和相对位置编码将空间先验引入模型。同样地，NAT [9] 改变了自注意力的感受野以模拟卷积层的形状，从而降低了计算成本，并使模型能够通过其感受野配置识别空间先验。RMT [10] 将自然语言处理（NLP）[11], [12] 中的显式衰减概念扩展到空间域，设计了一种基于 token 之间曼哈顿距离的二维双向空间衰减矩阵。它还提出了一种水平和垂直分解注意力机制来建模全局信息。

在这项工作中，我们同样基于 token 之间的相对距离设计了一种二维双向空间衰减矩阵。在我们的空间衰减矩阵中，目标 token 对距离较远 token 的注意力分数衰减更为急剧。该设计使目标 token 能够在捕获全局信息的同时，根据距离区分注意力等级。通过引入该空间衰减矩阵，我们成功将显式空间先验整合到视觉骨干网络中，从而增强了其有效处理空间信息的能力。与 RMT [10] 中使用的曼哈顿距离不同，我们采用欧几里得距离来建模 token 之间的关系。做出这一改变的原因是，人类对远离视野中心物体的注意力呈径向衰减模式 [13]，这与欧几里得距离的径向增长规律相一致。此外，我们采用了一种一维且空间独立的 token 分组方法。与二维空间依赖的分组方法（如 Swin Transformer 中的窗口划分和 MaxViT 中的二维膨胀分组）相比，该方法允许对每组内的 token 数量进行更灵活的控制。我们的实验表明，所提出的空间衰减矩阵为模型带来了显著的空间先验。一维 token 分组方法与空间衰减矩阵相结合，能够取得优于二维分组方法的效果。鉴于我们的模型通过利用 token 之间的欧几里得距离来引入空间先验，我们将其命名为欧几里得增强视觉 Transformer（EVT）。

我们开展了广泛的实验，涵盖图像分类、目标检测、实例分割、语义分割以及鲁棒性测试，以验证 EVT 的性能。EVT 在所有任务上均展现出显著的性能优势。如图 1 所示，在 224×224 分辨率下，EVT 在无需任何额外训练数据或监督信息的情况下，达到了 85.8% 的 top-1 准确率，且计算量仅为 18.2 GFLOPs。当分辨率提升至 384×384 时，模型性能得到进一步提升。我们的 EVT-L 模型仅包含 1 亿（100M）参数，即实现了 86.6% 的 top-1 准确率，显著优于现有模型。

本工作的初步版本已发表于 CVPR 2024 [10]。在本文中，我们在以下几个方面对会议版本进行了扩展： • 我们将 RMT 中基于曼哈顿距离的空间先验替换为更直观的基于欧几里得距离的空间先验。我们开展了大量实验，证明这种呈径向衰减的空间先验显著增强了模型的空间理解能力，进而提升了其整体性能。 • 我们提出了一种用于视觉 token 的一维分组方法。该分组方法忽略了 token 之间的空间关系，使模型能够灵活控制每组内的 token 数量。与 RMT 中采用的水平与垂直分解注意力机制相比，所提出的分组方法更为简单且高效。 • 我们开展了广泛的实验以验证 EVT 的性能。EVT 在图像分类、目标检测、实例分割、语义分割以及分布外（OOD）数据集分类等多种任务中均展现出卓越的性能。此外，我们进行了大量消融实验，以验证 EVT 内部各模块的具体贡献。

2 相关工作

2.1 视觉 Transformer

自原始基础版 ViT [1] 提出以来，许多研究工作致力于设计能够更好地捕获空间信息与多尺度特征的层次化架构 [3], [7], [14]–[20]。这些工作的核心主要围绕设计高效的、具有线性复杂度的注意力机制，以更有效地提供归纳偏置。例如，Swin Transformer 引入了基于窗口的自注意力机制 [3], [21]，PVT/PVTv2 提出了空间下采样注意力 [7], [22]–[24]，DAT 提出了可变形注意力 [15]，而 BiFormer 则开发了多尺度路由注意力 [17]。此外，还有一些方法利用全局或区域 token 在图像不同区域之间传递信息 [25]–[29]。同时，许多研究工作尝试对 ViT 进行扩展，从分辨率和模型参数量两个角度着手解决相关问题 [30]–[35]。除上述方法外，还有许多其他方法旨在加速 ViT 的推理过程。其中，诸如 EViT [36], [37] 等方法采用 token 剪枝策略，而 ToMe [38] 则使用 token 合并技术来融合相似的 token。此外，一些方法尝试通过对 token 进行聚类 [19], [39] 来降低全局注意力的计算开销。在本工作中，我们提出了一种新颖的空间独立一维 token 分组方法。该方法允许对每组内的 token 数量进行更灵活的控制。在空间先验的支持下，该方法已展现出令人印象深刻的性能。

2.2 卷积-Transformer 混合架构

卷积在捕获图像中的高频纹理信息方面效果显著，而 Transformer 则在建模低频全局信息方面具有优势 [5], [7], [40]。因此，许多架构尝试结合这两种方法的优势 [2], [5], [7], [40]–[44]。CMT [7] 将轻量级注意力模块与卷积相结合，依次提取局部与全局信息。iFormer [42] 采用并行设计，在同一 token 混合模块内，一部分通道使用自注意力机制提取全局信息，而另一部分则使用卷积捕获局部信息，随后通过线性投影将这些信息融合。此外，许多其他工作将轻量级卷积插入到 Transformer 设计的各个子组件中。例如，在模型起始处使用卷积茎（Conv Stem）对图像进行下采样 [17], [39]；在注意力机制之前插入基于卷积的局部信息增强模块 [2], [7], [39]；以及在前馈网络（FFN）中引入卷积以提供位置信息 [22], [23], [45]。在 RMT [10] 与 EVT 的设计中，卷积也被用于增强模型的局部表征能力。

2.3 视觉模型中的位置先验

位置编码是 Transformer 的关键模块，它为每个 token 提供位置信息，从而使 Transformer 能够感知 token 的位置 [46]。最早的 ViT 采用了基于正弦函数的绝对位置编码 [1]。随后，许多研究工作致力于改进视觉 token 的位置编码方法 [3], [14], [23], [34], [47], [48]。CPVT [47] 引入了基于深度可分离卷积的条件位置编码（CPE），该方法可非常灵活地插入到 ViT 的任意位置。在 Swin Transformer v2 [34] 中，提出了对数间隔的相对位置编码。与原始的相对位置编码相比，该方法更适用于高分辨率图像 [3]。在 CSwin [14] 中，采用了 LePE，这是一种高度灵活的、基于卷积的位置编码方法，已被众多技术广泛采用 [17], [49], [50]。此外，一些方法将卷积融入前馈网络（FFN）模块以提供位置信息，从而提升 Transformer 的性能 [7], [23], [45]。与前述方法不同，EVA02 [48] 从大型语言模型中广泛使用的旋转位置编码（RoPE）[51] 获得启发，提出了一种二维旋转位置编码并将其应用于视觉模型。在 RMT [10] 中，受 ALiBi [12] 与 RetNet [11] 在自然语言处理领域成功应用的启发，我们将基于曼哈顿距离的显式空间衰减引入自注意力机制，以向模型提供空间信息。在本工作中，我们进一步改进了该空间衰减方法，用更直观的欧几里得距离替代了曼哈顿距离。

3 方法

3.1 预备知识：RMT

在 RMT 中，我们受到 RetNet [11] 和 ALiBi [12] 中提出的一维时间衰减的启发，并将其扩展至二维空间域。由此得到了 RMT 中使用的基于曼哈顿距离的空间衰减。随着 token 之间相对距离的增加，该衰减会逐渐增强，从而将空间先验引入模型中。具体而言，如式 (1) 所示，我们的曼哈顿自注意力机制在注意力矩阵中引入了一个 D 矩阵作为衰减因子，从而将空间信息引入自注意力机制中：

此外，层次化架构往往在浅层具有较高的分辨率，从而导致显著的计算开销。为了解决这一挑战，RMT 引入了一种自注意力机制的分解形式，该形式允许以较低的计算成本进行全局信息建模。具体而言，它沿着图像的水平和垂直方向使用一维衰减矩阵来计算注意力权重，然后将这些注意力权重应用于值（Value）。详细过程如公式 2 所示：

3.2 EVT 的整体架构

一个 EVT 模块包含三个主要模块：条件位置编码（CPE）[47]、欧几里得自注意力（EuSA）以及经典的前馈网络（FFN）[46]。一个完整的 EVT 模块可以用公式 3 表示：

3.3 从曼哈顿距离到欧几里得距离

在 RMT 中，显式空间衰减基于曼哈顿距离，这与人类视觉感知图像的方式并不一致。在识别图像时，人类的注意力会随距离呈径向衰减 [13]。因此，我们将曼哈顿距离替换为欧几里得距离。我们从两个角度分析了欧几里得距离相较于曼哈顿距离的优势。

（1）从分布相似性的角度：使用衰减矩阵的核心目的是将与空间相关的先验引入注意力分数中。尽管标准自注意力机制也能够学习该先验，但我们的衰减矩阵将其显式地嵌入到注意力分数中，从而简化了学习过程。训练良好的无衰减矩阵 ViT 模型的注意力分数分布与我们的衰减矩阵分布越接近，说明我们的衰减矩阵越能有效地促进空间先验的学习，最终带来模型性能的提升。基于这一考虑，我们训练了一个不包含任何衰减矩阵的 EVT-T 模型。随后，我们分析了其注意力分数分布与不同衰减矩阵分布之间的相关性。我们使用 Jensen-Shannon（JS）散度来衡量不同分布之间的相似性，其计算公式如下：

较小的 JS 散度值表明分布之间的相关性更高。我们计算了 ImageNet-1K 验证集中图像的平均 JS 散度。结果如表 2 所示。基于 JS 散度值，基于欧几里得距离的衰减矩阵分布与训练模型中标准注意力分数的分布表现出更高的相似性，这也带来了更好的性能。

我们的衰减矩阵的分布与训练良好的 ViT 模型的注意力分数分布非常相似。后者已经包含了原生 ViT 所学习的空间知识，尽管由于缺乏外部干预，该空间先验仍然相对较弱。由于这两种分布高度相似，它们的结合进一步强化了模型所学习的空间先验，从而提升了模型的性能。

为了进一步阐明我们的论断，即空间衰减矩阵能够增强原生 ViT 的空间先验，我们将不同模型与 DINOv2 进行了比较——DINOv2 是一个强大的 ViT 骨干网络，在海量数据集上进行了大规模无监督训练。结果如表 2 所示。与原始 DeiT 相比，我们的 EVT-DeiT 展现出与 DINOv2 更为相似的注意力分布，表明 EVT-DeiT 获取了更丰富的空间知识。我们在 ImageNet-1K 上对模型进行预训练，并使用这些预训练模型在 ADE20K 上进行线性探测。EVT-DeiT 取得了显著优于 DeiT-T 的结果，这证明它学习到了更多的空间知识。

（2）从数值稳定性的角度：曼哈顿距离定义为：

尽管直观，但它存在距离变化不平滑的问题：曼哈顿距离沿坐标轴方向线性增加，但沿对角线方向保持不变。这导致空间衰减因子的缩放不均匀，从而可能在注意力调制过程中引入各向异性偏差。

(3) 与标准注意力机制的比较 对于标准自注意力机制（不含空间衰减），其注意力权重为：

该公式并未显式编码任何空间先验，无论几何位置如何，均同等对待所有 token。尽管标准注意力机制能够学习空间关系，但它们通常需要大规模的训练数据和大量的优化才能捕获有意义的空间结构（如 DINOv2 等模型所示）。在没有显式空间偏置的情况下，学习到的空间特征往往较弱且鲁棒性较差，尤其是在训练数据或计算资源有限的情况下。

通过引入空间衰减矩阵，注意力权重变为：

（4）注意力权重关于空间坐标的梯度：对于基于L2的衰减：

L2 梯度是平滑且具有方向感知能力的，而 L1 梯度是分段常数且不连续的，这可能会阻碍优化和空间泛化。

(5) 谱分析与空间覆盖

(6) 信息论视角：空间熵优化 空间衰减充当一种先验，用于塑造注意力分布的熵：

L2 衰减在各向同性约束下最大化熵，促使模型捕获多样化且有意义的空间依赖关系。L1 衰减由于其轴对齐偏差，可能会降低熵，并限制模型学习复杂空间关系的能力。

(7) 表达能力与泛化性 每个 token 的输出为：

该输出能够平滑地适应空间结构。L1 衰减倾向于产生轴对齐的感受野，在复杂空间场景中限制了模型的表达能力。

（8）梯度流与优化景观 L2 衰减的二阶导数为：

这确保了良态的优化地形，支持稳定且高效的梯度流。相反，L1 衰减在除不连续点外的几乎所有位置均产生零二阶导数，这可能导致训练不稳定。

（9）统一视角：为何 L2 在空间特征学习中更具优势尽管 L1 和 L2 衰减均能强制局部性，但 L2 的旋转不变性与平滑衰减特性更契合图像与空间模式的自然几何结构。这一点在分组与空洞注意力中尤为关键，因为其中的 token 邻域往往呈现不规则形态。L2 衰减使模型能够自适应地从各个方向学习空间先验，从而实现更连贯的特征聚合、更佳的泛化能力，以及对复杂空间结构更优的表征。即便在标准注意力架构中，L2 衰减也能提升空间表达能力与优化效果，其性能优于 L1 衰减及无衰减基线。

基于上述分析，我们采用欧几里得距离：

该方式提供了平滑且连续的缩放特性：与曼哈顿距离的阶梯式行为不同，欧几里得距离变化平滑，确保了注意力分数的逐渐且一致的衰减。欧几里得距离的平滑变化产生了一个性质良好的加权函数，避免了注意力分布的突变，并确保了训练的稳定性。

由于我们的方法将基于距离的衰减函数应用于注意力分数，曼哈顿距离的不连续性可能导致注意力调制的不稳定。相比之下，欧几里得距离凭借其平滑的过渡特性，确保了更稳定且一致的加权机制，最终提升了注意力性能。

基于此，我们认为使用欧几里得距离作为 token 的衰减因子应该是一种更直观的方法。我们已将公式 1 中的曼哈顿自注意力机制（MaSA）升级为基于欧几里得距离的欧几里得自注意力机制（EuSA），详见公式 18：

3.4 从分解形式到分组形式

在 RMT 中，我们将全局注意力分解为水平和垂直两个维度，然后利用来自每个维度的注意力权重对值（Value）进行加权，从而使 MaSA 能够感知全局信息，如公式 2 所示。然而，这种方法存在两个问题。首先，该方法导致了更高的复杂度。与其他线性复杂度的注意力机制（例如窗口自注意力 [3]）相比，MaSA 的复杂度为：

图论解释： 由于采用了交错的分组分配，1D 分组/空洞注意力的注意力连接图更为密集，与受网格约束的 2D 情况相比，这导致可达节点（token）的扩展速度更快。

(2) 通过 2D 欧几里得衰减恢复空间结构

虽然单独的 1D 注意力可能会破坏局部空间连续性，但我们提出的 2D 欧几里得（L2）空间衰减矩阵：

这种空间先验确保了，即使在巨大且不规则的感受野内，模型依然对几何邻近性和局部连续性保持敏感，从而有效地恢复了空间结构。

(3) 2D 空间先验对 1D 注意力的理论影响

注意力权重关于空间坐标的梯度为：

如表 3 所示，我们在 EVT-S 上进行了实验，并对不同的分组方法进行了详细比较。与二维分组/洗牌策略相比，一维分组/洗牌策略提供了两个关键优势：

（a）更低的计算复杂度和更高的效率。二维分组/洗牌策略沿高度和宽度两个维度进行操作，导致了更复杂的内存交互机制。相比之下，一维分组/洗牌策略仅应用于 token 序列，消除了冗余的二维计算并提高了整体效率。如表 3 所示，使用一维分组/洗牌的推理速度略快于二维分组/洗牌。

（b）更长的建模范围。与二维分组/洗牌策略相比，在每组 token 数量相同的情况下，一维分组/洗牌策略能够在每个分组/网格内实现更长的有效 token 交互范围。尽管它失去了显式的二维空间先验，但通过扩展 token 的感受野进行了补偿。如表 3 所示，在未引入欧几里得距离先验的情况下，一维策略的性能略逊于二维策略。然而，一旦引入距离先验，一维策略便获得了充足的空间先验，使其在保持较低计算复杂度的同时实现更优的性能。

（c）提升的分辨率适应性。通过使用一维分组/洗牌，训练后的模型展现出更好的分辨率适应性。我们基于 EVT-T 进行实验，在 384 和 512 两种分辨率下执行直接推理和微调。如表 4 所示，结果表明一维分组/洗牌取得了更优的性能。

3.5 EVT 的变体

表 5 展示了 EVT 的变体。与我们之前的工作 RMT [10] 类似，我们设计了四种模型变体：EVT-T/S/B/L。此外，为了能够与 Swin 等先前的工作进行公平比较，我们还设计了 EVT-Swin-T/S/B。对于 EVT-Swin 系列模型，我们严格对齐了 EVT 和 Swin 的配置，唯一的区别是将 WSA/SWSA 替换为 EuSAg/EuSAd。对于欧几里得衰减矩阵中的衰减系数 γ ，我们将其值手动设置为：

4 实验

我们在图像分类、目标检测、实例分割和语义分割任务上进行了广泛的实验。我们还在 ImageNet-v2/A/R [78]–[80] 上评估了 EVT 的鲁棒性。除了这些实验外，我们还进行了详细的消融研究，以验证 EVT 中每个模块的作用。

4.1 图像分类

设置：我们使用广泛采用的 ImageNet-1K [81] 数据集进行图像分类任务。该数据集包含 128 万张训练图像和 5 万张验证图像。预训练和微调的详细设置列于表 6。我们使用 AdamW 优化器，并配合余弦衰减学习率调度器。初始学习率、权重衰减和批量大小分别设置为 0.001、0.05 和 1024。我们采用了与 DeiT [63] 相同的数据增强和正则化策略（RandAugment [82] (randm9-mstd0.5-inc1)、Mixup [83] (prob = 0.8)、CutMix [84] (prob = 1.0)、随机擦除 (prob = 0.25) 以及指数移动平均 (EMA) [85]）。随机深度 [86] 的最大递增率对于 EVT-T/S/B/L 分别设置为 0.1/0.15/0.4/0.55。

4.2 目标检测与实例分割

设置： 我们在广泛使用的数据集 MS-COCO [90] 上评估了所提出的 EVT。该数据集包含 118K 张训练图像和 5K 张验证图像。我们利用 MMDetection [91] 来实现 Mask-RCNN [92]、Cascade Mask R-CNN [93] 和 RetinaNet [94]，以评估所提出的 EVT。对于 Mask R-CNN 和 Cascade Mask R-CNN，我们使用常用的 "3× + MS" 设置；对于 Mask R-CNN 和 RetinaNet，我们应用 "1×" 设置。遵循先前的工作 [3], [14]，在训练期间，我们将图像调整大小，使得较短边为 800 像素，同时保持较长边在 1333 像素以内。我们采用 AdamW 优化器进行模型优化。

4.3 语义分割

设置：ADE20K [95] 是一个广泛用于语义分割的数据集，包含 2 万张训练样本和 2 千张验证图像。我们利用 Semantic FPN [96] 和 UperNet [97] 来评估 EVT 在语义分割任务上的性能。我们基于 MMSegmentation [98] 实现了这两个框架。两个框架均采用编码器 - 解码器结构，其中我们使用 EVT 的变体作为框架中的编码器。我们遵循 Swin Transformer [3] 和 PVT [22] 中的训练方案，使用在 ImageNet 上预训练的模型初始化编码器。随后，我们对 UperNet 训练 16 万次迭代，对 SemanticFPN 训练 8 万次迭代。所有模型均使用 512×512 的输入分辨率，在测试时，图像的短边被调整为 512 像素。

结果：表 10 展示了 EVT 的不同变体在 ADE20K 上使用两种分割框架的结果。对于 Semantic FPN，EVT-T/S/B/L 分别实现了 48.3、50.0、51.7 和 52.0 的 mIoU，相较于其对照模型取得了令人印象深刻的性能提升。对于 UperNet，EVT 同样展现出优势。具体而言，EVT-B 实现了 52.7 的 mIoU，比先前最先进的 RMT-B 高出 0.7。EVT-B 的性能甚至超越了许多规模大一个数量级的模型。总之，EVT 在各种尺度上均展现出显著的性能优势。

4.4 鲁棒性评估

设置：我们在多个流行的数据集 [79], [80], [99], [100] 上评估模型的鲁棒性。我们还在 ImageNet-V2 [101] 上评估 EVT 的过拟合程度。用于评估的模型均在 ImageNet-1K 上进行了预训练。

结果：鲁棒性评估结果如表 11 所示。在 ImageNet-V2 (IN-V2) 上，EVT 的表现优于所有对照模型。例如，在参数量和 FLOPs 相近的情况下，EVT-B 比 BiFormer-B 高出 +1.7。在 ImageNet-A (IN-A) 和 ImageNet-R (IN-R) 上，EVT 所展现的优势更为显著。具体而言，仅在 ImageNet-1k 上预训练的情况下，EVT-L 在 ImageNet-A 上实现了 55.5 的准确率，在 ImageNet-R 上实现了 56.9 的准确率。

4.5 效率比较

设置：我们在同一设备上比较不同模型的吞吐量。具体而言，我们使用批量大小为 64 和 fp32 精度，在单张 NVIDIA A100 上测试各种模型的速度。

结果。我们在表 12 中展示了不同模型的效率对比，其中 EVT 展现了最佳的精度与速度权衡。具体而言，与其基线模型 RMT 相比，EVT 在所有尺度上均实现了效率提升，并具备更高的分类准确率。与其他最先进模型（如 BiFormer）相比，EVT 不仅拥有更快的推理速度（1001 vs 766），而且在分类准确率上取得了显著提升（84.4 vs 83.8）。这些结果充分证明了 EVT 在性能和速度方面的双重优势。

4.6 消融实验

曼哈顿距离与欧几里得距离的比较。我们的实验证明了欧几里得距离相较于曼哈顿距离的优势。实验基于 EVT-T 进行。如图 5 所示，使用欧几里得距离不仅带来了更好的模型性能，还减少了过拟合并使训练更加稳定。

不同衰减矩阵之间的比较。由于闵可夫斯基距离（Minkowski distance）和径向基函数（RBF）的梯度也是连续的，并且保留了方向优化信息，因此从理论上讲，它们是作为空间先验的可行选择。然而，在实践中并非如此。由于我们的显式衰减直接应用于注意力分数，它有效地对分数进行了缩放。然而，缩放因子不应过于复杂，因为过度的缩放会严重损害模型训练的稳定性。当使用闵可夫斯基距离或径向基函数（RBF）核时，距离函数的高次幂或指数增长会导致严重的不稳定性，这在 token 数量相当庞大的高分辨率任务（如目标检测）中变得尤为明显。在训练过程中，我们在使用闵可夫斯基距离或 RBF 时持续观察到明显的损失尖峰和 NaN（非数值）。相比之下，采用欧几里得距离时并未出现此类现象。如表 14 所示，使用特定的距离函数可能会引入不稳定性或导致显著的性能下降。

与基线的严格比较。为了能够与先前的方法进行公平比较，我们设计了 EVT-Swin 系列模型。EVT-Swin 严格对齐了 Swin-Transformer 的各种配置，仅将 Swin-Transformer 中的 WSA/SWSA 替换为我们的 EuSAg/EuSAd，并将 Swin-Transformer 中的普通注意力替换为我们的 EuSA，同时未使用诸如 CPE 和 Conv Stem 等额外模块。

基于欧几里得距离的衰减矩阵。 基于欧几里得距离的衰减矩阵是 EuSA 中的核心模块，为模型提供与空间相关的先验知识。在表 13 中，我们验证了衰减矩阵对模型的影响，证明了其显著的性能提升。具体而言，引入基于欧几里得距离的衰减矩阵使模型性能提升了

为了进一步理解衰减矩阵的工作机制，我们在表 15 中对衰减系数的不同配置进行了实验。我们发现，在多头注意力中为每个头设置不同的衰减系数，可以使每个头关注不同的尺度，从而带来更好的模型性能。相反，为所有头使用相同的衰减系数仅能带来轻微的性能提升。这表明，衰减矩阵所引入的多尺度信息才是真正提升模型性能的原因。

从 RMT 到 EVT 的演进路线。 如表 16 所示，我们逐步修改 RMT-T 中的组件，将其转变为 EVT-T。首先，我们采用了更深的模型，从而带来了性能提升（top1-acc+0.1，mIoU+0.3）。其次，我们将基于曼哈顿距离的衰减矩阵替换为基于欧几里得距离的衰减矩阵。这进一步提升了模型的性能（top1-acc+0.4，mIoU+1.2）。最后，我们将 MaSA 中的水平与垂直分解替换为 EuSA 的 token 分组方法。这一改动不仅降低了计算负载（减少 0.2G），还提升了模型的性能（top1-acc+0.6，mIoU+1.9）。

关于 RMT/EVT 与 RetNet 的比较讨论。 RMT/EVT 的灵感来源于 RetNet，旨在将其潜在有益的特性迁移到用于视觉任务的 ViT 中。然而，RetNet 能够展开为 RNN 的能力并不适用于视觉任务。这是因为视觉内在的双向特性并不适合用 RNN 来表示。在 RMT/EVT 中，我们使用二维、双向的衰减矩阵来建模视觉信息，而在 RetNet [11] 中，用于序列任务的衰减矩阵是一维且单向的。在不使用 Softmax 函数的情况下，两者均可通过以下公式表示：

在 RetNet 中， D 是一个对角矩阵，这使得 RetNet 可以方便地展开为 RNN 的形式。在 RetNet 中， D 是一个对角矩阵，对角线以上的所有值均设为零，这意味着当前的 token 只能与前序 tokens 关联，而与后续的 tokens 无关。这使得 RetNet 可以方便地展开为 RNN 的形式。然而，在 RMT/EVT 中， D 中的每个位置都是非零的，这意味着当前的 token 同时与前序和后继 tokens 进行交互。这创建了一个双向建模过程，从根本上阻止了模型展开为 RNN 的形式，因为 RNN 本质上是为单向序列建模设计的。

为了验证我们的观点，我们直接将 RetNet 的一维衰减（1D decay）及其线性复杂度 RNN 公式应用于 Swin-T。结果如表 17 所示。使用 RetNet 的 D D 矩阵和 RNN 公式有效地降低了模型的计算成本，实现了线性复杂度。然而，一维推理方法破坏了视觉固有的 2D 特性，而 RNN 公式损害了视觉推理的并行性。结果，模型的性能和推理速度都遭受了显著的下降。

从 Swin-T 到 EVT-Swin-T 的路线图。 我们在表 18 中展示了从 Swin-T 到 EVT-Swin-T 的路线图。结果清楚地展示了不同模块的效果。

关于视觉 token 数量的消融实验。 在表 19 中，我们比较了不同 token 分组大小下的模型性能（例如 49 或 32 个 token 的组，必要时进行填充）。尽管在这些设置下我们的方法并不等同于 CSWin，但它始终实现了更好的性能。

即使使用较小的分组大小（例如每组 32 个 token），我们的模型也能从一维（1D）分组范式固有的灵活性中受益。与使用固定注意力模式的其他方法相比，一维范式更加灵活多样，使模型能够学习更丰富的特征。

对于更高的分辨率，我们测试了 ntoken 的各种值。得益于二维（2D）空间中一维分组的高度灵活性，随着分辨率的增加，token 分组变得更加多样化。这种强烈的变异性使模型能够学习更丰富的空间模式。如表 20 所示。即使每组的 token 数量减少，借助空间先验，模型仍然取得了强劲的性能。

多分辨率下的效率与性能。 我们在图 6 中展示了模型的资源消耗和性能。EVT 与其他具有线性复杂度的模型一样，表现出资源需求的线性增长。

4.7 可视化

欧几里得距离 vs. 曼哈顿距离。 我们在图 7 中展示了可视化结果。这些模型是基于 DeiT 训练的。我们可以看到，空间先验（spatial prior）的引入使得注意力分数的分布更加集中，减少了注意力分散的可能性。同时，与曼哈顿距离相比，欧几里得距离带来了更平滑的注意力变化，这更容易导致合理的注意力分布。

与 Swin 的比较。 为了充分展示 EVT 的优势，我们可视化了每个阶段输出的 token 的注意力图。为了进行比较，我们也可视化了 Swin-Transformer 的特征图。我们通过为每个阶段构建一个全局热力图，来可视化 Swin Transformer 每个层级的注意力图。这种方法借鉴了 [103] 中使用的注意力展开（Attention Rollout）技术，该技术跨层聚合议注意力分数以创建全局注意力图。为了生成每个层级的全局热力图，我们通过聚合所有头（heads）和组（groups）的注意力权重来计算每个查询 token（query token）的注意力分数，并且我们跨层递归地累积这些分数。这导致了全局注意力模式的形成，即使是从局部注意力操作中也能产生。结果展示在图 8 中。我们使用了 224 × 224 的输入图像分辨率，阶段 1、2、3 和 4 的 token 分辨率分别是 56 × 56 、 28 × 28 、 14 × 14 和 7 × 7 。从可视化结果来看，很明显 EVT 在模型的浅层（例如阶段 1 和阶段 2）保留了详细信息。在更深层，EVT 成功捕捉到了图像中重要的物体信息，使模型能够实现准确的分类。与 Swin-Transformer 相比，EVT 的特征图表现出更少的噪声和更准确的物体定位，充分展示了 EVT 的优势。

5 结论

在本工作中，我们提出了 EVT，一种强大的通用视觉骨干网络。基于 RMT，它用基于欧几里得距离的显式衰减取代了基于曼哈顿距离的显式衰减，从而提升了模型性能。此外，它用一种更高效的、具有线性复杂度的一维 token 分组方法，取代了 RMT 中复杂度为
的注意力分解方法。这使得 EVT 成为一个在性能和效率方面均表现卓越的强大骨干网络。我们在图像分类、目标检测、实例分割和语义分割等任务中验证了该模型的强劲性能，并展示了其在分布外（OOD）数据上的鲁棒性。最后，我们进行了广泛的消融研究，以验证模型中各个模块的作用。

原文链接：https://arxiv.org/pdf/2604.18549

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.