手机上搭建个人网站,高端品牌网站建设制作需要注意什么,企业自助建站程序,德州网络科技有限公司文章目录 摘要1 引言2 相关工作2.1 多语义空间信息2.2 注意力分解 3 方法3.1 共享多语义空间注意力#xff1a;空间与通道分解3.2 渐进式通道自注意力3.3 协同效应3.4 注意力机制的整合 4 实验4.1 实验设置4.2 图像分类4.3 目标检测4.4 分割4.5 消融研究 5 可视化与分析5.1 注… 文章目录 摘要1 引言2 相关工作2.1 多语义空间信息2.2 注意力分解 3 方法3.1 共享多语义空间注意力空间与通道分解3.2 渐进式通道自注意力3.3 协同效应3.4 注意力机制的整合 4 实验4.1 实验设置4.2 图像分类4.3 目标检测4.4 分割4.5 消融研究 5 可视化与分析5.1 注意力可视化5.2 有效感受野可视化5.3 计算复杂度5.4 推理吞吐量评估5.5 目标检测定性结果5.6 实例分割定性结果5.7 语义分割定性结果 6 局限性7 结论 摘要
https://arxiv.org/pdf/2407.05128 通道注意力和空间注意力分别为各种下游视觉任务在提取特征依赖性和空间结构关系方面带来了显著改进。通道注意力和空间注意力的结合使用被广泛认为有利于进一步提升性能然而通道注意力和空间注意力之间的协同作用尤其是在空间引导和缓解语义差异方面尚未得到深入研究。这促使我们提出了一种新的空间与通道协同注意模块SCSA该模块涉及我们在多个语义层面上对空间注意力和通道注意力之间协同关系的研究。我们的SCSA由两部分组成可共享多语义空间注意力SMSA和渐进通道自注意力PCSA。SMSA整合了多语义信息并利用渐进压缩策略将判别性空间先验注入到PCSA的通道自注意力中有效引导通道再校准。此外PCSA中基于通道单头自注意力机制的稳健特征交互进一步缓解了SMSA中不同子特征之间多语义信息的差异。我们在七个基准数据集上进行了大量实验包括在ImageNet-1K上的分类、在MSCOCO上的目标检测、在ADE20K上的分割以及四个其他复杂场景检测数据集。实验结果表明我们提出的SCSA不仅超越了当前的即插即用型最先进注意力方法而且在各种任务场景中展现出增强的泛化能力。代码和模型可在以下网址获取https://github.com/HZAIZJNU/SCSA。
1 引言
注意力机制通过增强感兴趣区域的表示有助于学习更具判别性的特征并被广泛用于重新分配通道关系和空间依赖性。现有的即插即用型注意力方法主要可分为三类通道注意力[23, 27, 62, 55, 31, 41]、空间注意力[22, 56, 42, 9]和混合通道-空间注意力[57, 40, 38, 14, 20, 65, 39, 61]。它们的侧重点不同通道注意力通过自适应地为不同通道加权来增强关键对象特征的提取而空间注意力则旨在增强关键空间信息。空间信息在像素级别表示语义特征对象。局部空间信息捕获低语义对象如精细细节和纹理而全局空间信息感知高语义对象如整体形状。
在基于卷积神经网络CNN架构的模型中深度卷积算子通常用于特征提取。这些算子生成的梯度可以在不同的特征通道之间流动和传播从而促进卷积权重的更新并有效表示图像特征。然而众多研究表明仅依赖卷积分支进行特征提取会导致梯度流失真[54]从而导致关键信息丢失或相似特征冗余[4, 17, 66, 35]。为解决此问题已提出了一些基于激发和抑制机制[23]的方法这些方法将特征学习重点放在对不同任务最关键的特征上从而增强了模型的表示能力。特别是CBAM[57]通过串联通道和空间注意力分别聚合全局空间和通道信息但压缩所有通道信息会导致所有空间结构之间共享信息。这削弱了空间上下文对不同特征图的适应性。为克服此问题CPCA[24]引入了通道优先注意力机制和深度条纹卷积独立提取每个特征的空间结构显著提高了医学图像分割性能。此外基于分组注意力和跨空间多尺度交互的EMA[39]模块有效融合了长短期依赖的空间信息但忽略了组间特征交互。 尽管这些混合注意力机制增强了表征学习但它们忽视了跨空间和通道维度的固有多语义信息以及多语义特征的交互和差异缓解这对于检测和分割等细粒度任务至关重要从而限制了这些方法的即插即用能力。如图1所示我们分析了图像的几个特征图并观察到不同的空间区域由于不同通道的特征选择性而表现出固有的语义差异和相似性。
基于这一见解我们提出了一个问题是否可以利用不同特征通道之间固有的空间语义差异来指导重要特征的学习此外考虑到语义差异的存在我们如何缓解这些多语义差异并促进多语义信息的更好融合
与上述方法不同我们从以下三个方面探索上述问题的解决方案维度解耦、轻量级多语义指导和语义差异缓解并提出了一种新颖的、即插即用的空间和通道协同注意力SCSA。我们的SCSA由可共享的多语义空间注意力SMSA和顺序连接的渐进式通道自注意力PCSA组成。本研究首先采用多尺度、深度共享的1D卷积从四个独立的子特征中提取不同语义级别的空间信息。我们在四个子特征上利用组归一化[58]来加速模型收敛同时避免引入批次噪声和不同子特征之间语义信息的干扰。随后我们将SMSA调制后的特征图输入到PCSA中结合了渐进式压缩和通道特定的单头自注意力机制。我们的渐进式压缩策略旨在最小化计算复杂度同时保留SMSA中的空间先验提供了一个实用的折中方案。此外我们的PCSA利用输入感知的单头自注意力机制有效地探索通道相似性从而缓解SMSA中不同子特征之间的语义差异并促进信息融合。我们在四个视觉任务和七个基准数据集上进行了广泛的实验证明了我们的SCSA中应用的多语义协同的有效性。综上所述我们的贡献如下
我们指出了现有即插即用注意力机制的两大关键限制1在空间和通道维度上利用固有的多语义空间信息指导关键特征提取的能力不足2对特征图中多语义信息引起的语义差异和交互处理不当。我们提出了空间和通道协同注意力SCSA包括SMSA和PCSA模块。SMSA利用多尺度深度共享的1D卷积捕获多语义空间信息增强了局部和全局特征表示。PCSA采用输入感知的自注意力来细化通道特征有效缓解语义差异确保跨通道的稳健特征整合。我们的方法在包括ImageNet-1K分类、MSCOCO目标检测和ADE20K分割在内的多个基准测试中优于其他最先进的即插即用注意力机制并在低光照和小物体基准测试等各种复杂场景中表现出强大的泛化能力。
2 相关工作
2.1 多语义空间信息
多语义空间结构融入了丰富的类别和上下文信息。有效整合全局上下文和局部空间先验能够使模型从多个角度学习到更高质量的表征。InceptionNets[49,25,50,48]开创了多分支方法采用并行的不同尺寸的标准卷积来捕获不同的感受野显著提升了特征提取能力。SKNet[27]将多尺度卷积融入通道注意力中使用SENet[23]提出的挤压-激励机制来整合具有不同感受野的空间先验。得益于全局上下文建模能力ViT[9]采用多头自注意力MHSA来捕捉不同语义子特征中不同空间位置的相关性并辅以位置嵌入来补偿空间先验在各种下游任务中取得了显著的成功。目前许多研究基于多语义思想开发高效模型[66,35,4,53]以减少参数和计算量从而提高推理效率。Mamba[16]引入了一个使用扫描机制和GPU并行性的可选状态空间模型以线性时间复杂度建模全局上下文依赖。此外VMamba[32]提出了一个跨扫描模块将1D序列扫描扩展到2D图像扫描有效地从四个方向捕获多语义全局上下文信息。
2.2 注意力分解
将注意力机制融入主流主干网络或特征融合网络能够增强对细粒度特征的理解并提高特征表征的准确性。然而这不可避免地会导致内存使用量和计算时间的增加。CA[20]和ELA[61]分别在高度 H H H和宽度 W W W维度上进行单向空间压缩在一个方向上保留空间结构同时在另一个方向上聚合全局空间信息从而减轻全局压缩带来的信息损失。SA[65]和EMA[39]将特征重塑为子特征以减少注意力计算和参数。然而它们在受GPU带宽限制的高维B批量大小和C通道数中使用的重塑操作会导致昂贵的数据传输严重影响推理速度。CPCA[24]在独立通道中使用条纹卷积来减少大核卷积中的参数。近期研究还在MHSA中应用维度分解其中RMT[12]分别在 H H H和 W W W维度上单独应用MHSA以最小化计算成本。
在本研究中我们基于注意力分解的概念提出了一个整合多语义空间信息的轻量级引导模块。此外我们还设计了一个基于渐进式通道单头自注意力机制的多语义差异缓解模块旨在探索空间维度和通道维度之间更优化的协同关系。
3 方法
在本节中我们首先讨论SMSA模块该模块探索了轻量级多语义信息引导的好处。接下来我们介绍PCSA模块该模块利用渐进式压缩策略和通道自注意力来缓解语义差异。多语义引导和语义差异缓解的协同作用促使我们提出了SCSA模块。总体架构如图2所示。
3.1 共享多语义空间注意力空间与通道分解
神经网络架构中的分解技术显著减少了参数数量和计算开销。受Transformer[52]中1D序列结构的启发在我们的工作中我们沿着高度和宽度维度对给定输入 X ∈ R B × C × H × W X \in \mathbb{R}^{B \times C \times H \times W} X∈RB×C×H×W进行分解。我们对每个维度应用全局平均池化从而创建两个单向1D序列结构 X H ∈ R B × C × W X_{H} \in \mathbb{R}^{B \times C \times W} XH∈RB×C×W和 X W ∈ R B × C × H X_{W} \in \mathbb{R}^{B \times C \times H} XW∈RB×C×H。为了学习不同的空间分布和上下文关系我们将特征集划分为 K K K个大小相同、独立的子特征 X H i X_{H}^{i} XHi和 X W i X_{W}^{i} XWi每个子特征的通道数为 C K \frac{C}{K} KC。在本文中我们设置默认值 K 4 K4 K4。分解为子特征的过程如下 X H i X H [ : , ( i − 1 ) × C K : i × C K , : ] X W i X W [ : , ( i − 1 ) × C K : i × C K , : ] \begin{array}{l} X_{H}^{i}X_{H}\left[:,(i-1) \times \frac{C}{K}: i \times \frac{C}{K},:\right] \\ X_{W}^{i}X_{W}\left[:,(i-1) \times \frac{C}{K}: i \times \frac{C}{K},:\right] \end{array} XHiXH[:,(i−1)×KC:i×KC,:]XWiXW[:,(i−1)×KC:i×KC,:] X i X^{i} Xi表示第 i i i个子特征其中 i ∈ [ 1 , K ] i \in[1, K] i∈[1,K]。每个子特征是独立的便于高效地提取多语义空间信息。 在不相交子特征上应用轻量级卷积策略。在将特征图划分为独立子特征后我们的目标是在每个子特征内高效地捕获不同的语义空间结构。受减少特征冗余的广泛研究启发[35, 17, 4]这些研究揭示出冗余可能源于特征之间的强烈相互作用我们也观察到特征之间存在不同的空间结构如图1所示。基于这些见解并旨在丰富语义信息、增强语义一致性和最小化语义差距我们对四个子特征应用了核大小为3、5、7和9的深度一维卷积。此外为了解决将特征分解为H和W维度并分别应用一维卷积导致的感受野受限问题我们使用轻量级共享卷积进行对齐通过在这两个维度上学习一致特征来隐式建模它们之间的依赖关系。关于它们的消融实验细节见表1。提取多语义空间信息的实现过程定义如下 X ~ H i D W C o n v 1 d k i C R → C R ( X H i ) X ~ W i D W C o n v 1 d k i C R → C R ( X W i ) \begin{array}{l} \tilde{X}_{H}^{i}DWConv1d_{k_{i}}^{\frac{C}{R} \rightarrow \frac{C}{R}}\left(X_{H}^{i}\right) \\ \tilde{X}_{W}^{i}DWConv1d_{k_{i}}^{\frac{C}{R} \rightarrow \frac{C}{R}}\left(X_{W}^{i}\right) \end{array} X~HiDWConv1dkiRC→RC(XHi)X~WiDWConv1dkiRC→RC(XWi) X ~ i \tilde{X}^{i} X~i表示在轻量级卷积操作后获得的第 i i i个子特征的空间结构信息。 k i k_{i} ki表示应用于第 i i i个子特征的卷积核。
在分解独立子特征并捕获不同语义的空间信息后我们需要构建空间注意力图。具体而言我们将不同的语义子特征进行拼接并使用具有 K K K组的组归一化GN[58]进行归一化。我们选择GN而不是常见的批量归一化BN[26]因为我们的研究发现GN在区分子特征之间的语义差异方面表现更优。GN可以对每个子特征进行独立归一化而不会引入批次统计噪声有效减轻子特征之间的语义干扰并防止注意力分散。这一设计通过表1中的消融实验得到了验证。最后使用简单的Sigmoid激活函数生成空间注意力该函数激活并抑制特定的空间区域。输出特征的计算如下 A t t n H σ ( G N H K ( C o n c a t ( X ~ H 1 , X ~ H 2 , … , X ~ H K ) ) ) A t t n W σ ( G N W K ( C o n c a t ( X ~ W 1 , X ~ W 2 , … , X ~ W K ) ) ) S M S A ( X ) X s A t t n H × A t t n W × X \begin{array}{c} Attn_{H}\sigma\left(GN_{H}^{K}\left(Concat\left(\tilde{X}_{H}^{1}, \tilde{X}_{H}^{2}, \ldots, \tilde{X}_{H}^{K}\right)\right)\right) \\ Attn_{W}\sigma\left(GN_{W}^{K}\left(Concat\left(\tilde{X}_{W}^{1}, \tilde{X}_{W}^{2}, \ldots, \tilde{X}_{W}^{K}\right)\right)\right) \\ SMSA(X)X_{s}Attn_{H} \times Attn_{W} \times X \end{array} AttnHσ(GNHK(Concat(X~H1,X~H2,…,X~HK)))AttnWσ(GNWK(Concat(X~W1,X~W2,…,X~WK)))SMSA(X)XsAttnH×AttnW×X σ ( ⋅ ) \sigma(\cdot) σ(⋅)表示Sigmoid归一化而 G N H K ( ⋅ ) GN_{H}^{K}(\cdot) GNHK(⋅)和 G N W K ( ⋅ ) GN_{W}^{K}(\cdot) GNWK(⋅)分别表示沿H和W维度进行K组归一化的GN。
3.2 渐进式通道自注意力
计算通道注意力的常用方法是通过探索通道之间依赖关系的卷积操作[23,55]。使用卷积来建模特征之间的相似性有些不直观并且难以有效测量不同通道之间的相似性。受ViT[9]在利用多头自注意力MHSA建模空间中不同标记之间相似性方面的显著优势启发我们提出将单头自注意力SHSA与来自多语义空间注意力SMSA的调制空间先验相结合以计算通道间相似性。此外为了保留和利用SMSA提取的多语义空间信息并降低SHSA的计算成本我们采用基于平均池化的渐进压缩方法该方法在我们的协同作用中起指导作用。与使用常见的卷积操作建模通道依赖性相比渐进式通道自注意力PCSA表现出更强的输入感知能力并有效利用SMSA提供的空间先验来加深学习。我们PCSA的实现细节如下 X p P o o l ( 7 , 7 ) ( H , W ) → ( H ′ , W ′ ) ( X s ) F p r o j D W C o n v 1 d ( 1 , 1 ) C → C Q F p r o j Q ( X p ) , K F p r o j K ( X p ) , V F p r o j V ( X p ) X a t t n A t t n ( Q , K , V ) S o f t m a x ( Q K T C ) V P C S A ( X s ) X c X s × σ ( P o o l ( H ′ , W ′ ) ( H ′ , W ′ ) → ( 1 , 1 ) ( X a t t n ) ) \begin{array}{c} X_{p}Pool_{(7,7)}^{(H, W) \rightarrow\left(H^{\prime}, W^{\prime}\right)}\left(X_{s}\right) \\ F_{proj}DWConv1d_{(1,1)}^{C \rightarrow C} \\ QF_{proj}^{Q}\left(X_{p}\right), KF_{proj}^{K}\left(X_{p}\right), VF_{proj}^{V}\left(X_{p}\right) \\ X_{attn}Attn(Q, K, V)Softmax\left(\frac{QK^{T}}{\sqrt{C}}\right)V \\ PCSA\left(X_{s}\right)X_{c}X_{s} \times \sigma\left(Pool_{\left(H^{\prime}, W^{\prime}\right)}^{\left(H^{\prime}, W^{\prime}\right) \rightarrow(1,1)}\left(X_{attn}\right)\right) \end{array} XpPool(7,7)(H,W)→(H′,W′)(Xs)FprojDWConv1d(1,1)C→CQFprojQ(Xp),KFprojK(Xp),VFprojV(Xp)XattnAttn(Q,K,V)Softmax(C QKT)VPCSA(Xs)XcXs×σ(Pool(H′,W′)(H′,W′)→(1,1)(Xattn)) P o o l ( k , k ) ( H , W ) → ( H ′ , W ′ ) ( ⋅ ) Pool_{(k, k)}^{(H, W) \rightarrow\left(H^{\prime}, W^{\prime}\right)}(\cdot) Pool(k,k)(H,W)→(H′,W′)(⋅)表示核大小为 k × k k \times k k×k的池化操作将分辨率从 ( H , W ) (H, W) (H,W)缩放到 ( H ′ , W ′ ) \left(H^{\prime}, W^{\prime}\right) (H′,W′)。 F p r o j ( ⋅ ) F_{proj}(\cdot) Fproj(⋅)表示生成查询Q、键K和值V的线性投影。
值得注意的是与ViT中的MHSA不同其中 Q , K , V ∈ R B × N × C Q, K, V \in \mathbb{R}^{B \times N \times C} Q,K,V∈RB×N×C且 N H W NHW NHW在我们的PCSA的通道注意力单头自注意力CA-SHSA中自注意力是沿通道维度计算的其中 Q , K , V ∈ R B × C × N Q, K, V \in \mathbb{R}^{B \times C \times N} Q,K,V∈RB×C×N。此外为了与SMSA中分解的不同子特征充分交互我们选择实现更简单的单头自注意力机制而不是将多头自注意力与通道混洗相结合[66]。
3.3 协同效应
空间与通道注意力机制的协同旨在相互补充。在我们的工作中我们提出了一种通过空间注意力引导通道注意力学习的新概念。受CBAM [57]和CPCA[24]之间联系的启发我们采用类似的串行结构来整合我们的空间多语义注意力SMSA和位置敏感通道注意力PSCA模块形成空间通道协同注意力SCSA。不同的是首先应用空间注意力SMSA然后是通道注意力PSCA。前者从每个特征中提取多语义空间信息为后者提供精确的空间先验后者通过利用整体特征图 X X X来细化局部子特征 X i X^{i} Xi的语义理解从而减轻前者中多尺度卷积引起的语义差异。此外与以前的方法[23,57,40,20]不同我们没有采用通道压缩有效防止了关键特征的丢失。最终我们构建的SCSA如下 SCSA ( X ) PCSA ( SMSA ( X ) ) \text{SCSA}(X)\text{PCSA}(\text{SMSA}(X)) SCSA(X)PCSA(SMSA(X))
3.4 注意力机制的整合
在我们的工作中我们将提出的SCSA整合到不同的主干网络中以验证其在增强特征提取能力方面的有效性。如图3所示SCSA被整合到四个主流模块中(a)和(b)代表基于ResNet [19]及其变体系列[60]的模块©代表基于MobileNet系列[46, 21, 37]的倒置残差结构(d)代表重参数化方法代表RepVGG [8]的模块结构。 4 实验
4.1 实验设置
在本节中我们首先介绍实验细节。接下来我们在四个视觉任务上进行了实验将我们提出的SCSA与其他最先进的注意力机制进行了比较。之后在第4.5节中我们从四个不同角度对我们精心设计的SCSA进行了全面的消融研究。
数据集。我们在四个视觉任务上验证了方法的有效性。对于图像分类我们选择了广泛使用的ImageNet-1K [44]数据集。在目标检测中我们使用了几个具有挑战性的检测数据集包括MSCOCO [30]、Pascal VOC [11]、VisDrone [10]和ExDark [34]。对于语义分割和实例分割我们选择了广泛使用的ADE20K [67]和MSCOCO [30]基准。
我们热衷于探索注意力机制是否能更有效地应用于各种复杂场景任务。虽然之前的研究[23,55,65,39,57,61]在广泛使用的基准如ImageNet-1K [44]、MSCOCO [30]上表现出了良好的性能但在密集、低光照和小目标场景中的有效性仍有待探索。因此我们使用表4中的代表性基准进行了更多实验小目标数据集VisDrone [10]、低光照数据集ExDark [34]、红外自动驾驶数据集FLIR-ADAS v2 [13]和通用数据集Pascal VOC [11]。
评估指标。我们使用Top-1和Top-5指标来衡量图像分类性能使用平均精度AP来评估目标检测性能并报告参数数量Params、每秒浮点运算次数FLOPs和吞吐量来衡量性能。对于语义分割我们采用平均交并比mIoU。
实现细节。为了评估我们在ImageNet-1K [44]上提出的SCSA我们选择了四个基于CNN和Transformer架构的主流主干网络包括ResNet [19]、MobileNetV2 [46]、RepVGG [8]和Swin [33]。具体来说我们遵循了原始论文[19, 46, 8, 33]中的参数配置除了批量大小和学习率。由于所有分类模型都在单个NVIDIA RTX 4090 GPU上进行训练我们根据线性缩放规则[15, 63]调整了批量大小和学习率。对于ResNet [19]、RepVGG [8]和Swin [33]批量大小统一设置为128学习率分别缩放为0.05、0.05和0.000125。当使用我们的SCSA训练MobileNetV2时我们使用ECANet [55]中的批量大小和学习率分别设置为96和0.045。值得注意的是为了提高训练效率我们采用了自动混合精度AMP训练。
我们使用Faster R-CNN [43]、Mask R-CNN [18]、Cascade R-CNN [3]和RetinaNet [29]在MSCOCO [30]上评估了我们的SCSA。这些检测器使用MMDetection [5]工具箱实现并采用默认设置。所有模型都使用SGD优化器进行训练动量设置为0.9权重衰减设置为 1 e − 4 1 \text{e}-4 1e−4每个GPU的批量大小为2总共训练12个周期。Faster R-CNN、Mask R-CNN和Cascade R-CNN的学习率从0.0025开始而RetinaNet的学习率从0.00125开始。所有模型的学习率在第8个和第11个周期时减少10倍。我们使用单个NVIDIA H800 GPU在MSCOCO [30]上对模型进行了12个周期的微调并在验证集上报告了比较结果。在上述配置的基础上我们进一步评估了所提出的SCSA方法在Pascal VOC [11]以及VisDrone [10]、ExDark [34]和FLIR-ADAS V2 [13]等复杂场景中的检测性能和泛化能力。
我们还使用UperNet [59]在ADE20K [67]上验证了我们的方法在语义分割方面的有效性。遵循常见做法[6,64]我们使用MMSegmentation [7]工具箱将批量大小设置为16并进行80k次训练迭代。所有模型都使用SGD优化器进行训练初始学习率设置为0.01动量设置为0.9权重衰减设置为 5 e − 4 5 \text{e}-4 5e−4。我们还使用单个NVIDIA H800 GPU进行训练和推理。
所有模型都使用默认的随机种子0进行训练。
4.2 图像分类
我们将所提出的空间通道自注意力SCSA机制与其他最先进的注意力机制进行了比较包括SENet[23]、CBAM[57]、ECANet[55]、FcaNetFCA[41]、CA[20]、SANet[65]、EMA[39]、CPCA[24]和ELA[61]。如表2所示我们的SCSA在不同规模的网络中实现了最高的Top-1准确率同时参数数量和计算复杂度可忽略不计。在混合架构中我们的方法基于ResNet的吞吐量仅次于CA和ELA但在适中的模型宽度下它在准确性、速度和模型复杂度之间提供了更好的平衡。将SCSA方法融入MobileNetV2架构显著提高了模型准确性。尽管SCSA在参数数量上更轻量 3.63 M 3.63 \mathrm{M} 3.63M vs. 4.07 M 4.07 \mathrm{M} 4.07M- 0.44 M 0.44 \mathrm{M} 0.44M但其多分支结构在倒置残差块内遇到了通道维度急剧增加的问题从而导致吞吐量降低。值得注意的是将所提出的SCSA方法融入RepVGG[8]和基于空间自注意力的Swin[33]等先进模型仍然分别实现了 1.21 % 1.21 \% 1.21%和 0.70 % 0.70 \% 0.70%的显著准确性提升有效证明了我们的注意力机制在不同模型架构中的适应性。
4.3 目标检测
MSCOCO上的结果。我们在MSCOCO上评估了各种注意力机制以验证我们的方法在密集检测场景中的有效性。我们使用ResNet50和ResNet-101作为主干网络FPN[28]作为特征融合网络。如表3所示我们的方法在各种检测器、模型大小和对象尺度上均优于其他最先进的注意力方法。对于Faster R-CNN[43]与原始ResNet-50和ResNet101相比我们的SCSA在AP方面分别提高了 1.7 % 1.7 \% 1.7%和 1.3 % 1.3 \% 1.3%。与其他即插即用的注意力模块包括CBAM[57]、FCA[41]、ECA[55]和CA[20]相比SCSA表现出更优的性能在Cascade R-CNN[3]检测器上实现了 0.4 % 0.4 \% 0.4%到 1.0 % 1.0 \% 1.0%的增益。此外它在不同尺度的目标检测中始终表现出色证实了其对多尺度特征的强大适应性。
红外、低光照和小目标检测的结果。如表4所示令人欣慰的是与其他同类方法相比所提出的SCSA在这些基准测试[34, 10,11,13]中的表现更佳进一步证明了我们的策略在保持通道维度和多语义信息协同概念方面的鲁棒性。值得注意的是我们的结果表明在长尾数据集如FLIR-ADASv2[13]上应用注意力机制仍存在一些局限性这导致了极小的性能提升甚至下降。这可能是由于注意力机制的压缩和激励策略不适合处理不平衡分布的数据导致关注高频类别而忽视低频类别的学习。
4.4 分割
我们还在ADE20K[67]上的语义分割和MSCOCO[30]上的实例分割中测试了其性能。我们基于UperNet[59]网络进行了广泛的比较实验。如表5和表6所示我们的SCSA显著优于其他注意力方法。具体而言在ResNet-50和ResNet101上SCSA在mIoU方面分别提高了 0.94 % 0.94 \% 0.94%和 1.02 % 1.02 \% 1.02%而其他方法仅实现了 0.1 % 0.1 \% 0.1%到 0.2 % 0.2 \% 0.2%的提升甚至有些方法的性能还低于基线模型。同时在实例分割任务中SCSA在AP方面实现了 0.3 % 0.3 \% 0.3%到 0.7 % 0.7 \% 0.7%的提升超越了其他同类方法。这些结果表明我们的方法基于多语义空间信息在像素级任务中表现出色。
4.5 消融研究
如表1所示我们将SCSA应用于ResNet-50在ImageNet-1K数据集[44]上构建了SCSA-50作为基线以从四个方面进行消融研究。
宏观设计。我们分别验证了SMSA和PCSA模块与ResNet-50相比两者在准确性方面均显示出显著提升。在SMSA中受多语义信息指导Top-1准确率显著提高了 1.05 % 1.05\% 1.05%而PCSA通过减轻多语义差异并促进通道交互将准确率提高了 0.82 % 0.82\% 0.82%。如果PCSA中没有进行渐进式压缩准确率会下降 0.18 % 0.18\% 0.18%这主要是因为在进行直接的全局空间压缩后PCSA无法利用SMSA提供的判别性空间先验来进行计算。
顺序。我们的研究主要旨在探索跨空间和通道维度的固有多语义空间信息是否能有效指导通道特征的学习。为了进一步证明这种“指导”的好处我们交换了PCSA和SMSA的顺序。有趣的是Top-1准确率下降了 0.29 % 0.29\% 0.29%这进一步验证了我们之前的假设即空间注意力可以指导通道特征的学习从而证实了使用多语义信息进行指导的有效性。
尽管归一化有助于减少数据噪声并加速模型收敛[45]但SMSA中归一化的位置可能会产生不同的效果。基于MHSA[52, 9]的主干网络通常在注意力计算之前使用层归一化LN[1]而一些即插即用的注意力模块要么省略归一化层[55,24]要么提前应用它们[65,39]。为了探索归一化在SMSA中的必要性和最佳位置我们通过在注意力之前添加归一化和移除归一化来进行实验。表1中的结果表明归一化对于注意力机制至关重要尽管其具体位置影响较小。预归一化有助于处理输入特征之间的变化并提高训练稳定性但可能会导致特征细节丢失降低注意力对细粒度信息的敏感性。相反在注意力计算后应用归一化可以减轻噪声但也可能削弱模型对重要特征的关注。最终基于准确性结果我们选择在SMSA的注意力计算后放置归一化。
微观设计。在上述实验分析确认归一化层在注意力计算中的重要性后我们考虑组归一化是否更适合从所提议的SCSA中的多个子特征中提取多语义信息。为了研究这一点我们进行了消融研究比较了深度神经网络DNNs中流行的归一化方法如BN[26]和LN[1]。结果表明当GN依次被BN和LN替换时准确性和推理速度均下降Top-1准确率分别降至 77.19 % 77.19\% 77.19%和 77.20 % 77.20\% 77.20%。这些下降归因于GN在保留子特征间语义模式独立性方面的卓越能力从而最小化了语义干扰。相反BN对批量大小的敏感性在处理多语义信息时可能会引入统计噪声[2]。LN通过沿通道维度进行归一化并捕获所有特征的信息可能会破坏SMSA的多尺度卷积从单个子特征中提取的独特语义模式。这些消融研究表明GN在涉及多个语义的卷积层中可能是更合适的选择。此外使用非共享卷积导致的准确性下降和参数增加进一步验证了使用共享卷积在H和W维度上一致学习和建模特征依赖性的有效性。
此外当用多头和通道混洗操作[66]替换PCSA中的单个注意力头时性能从 77.49 % 77.49\% 77.49%下降到 77.35 % 77.35\% 77.35%。这种现象主要归因于单个头部促进的强通道间交互这有效缓解了SMSA中产生的语义差异。为了验证沿高度和宽度维度分解的1D序列上的共享卷积学习我们将其与非共享卷积学习进行了比较。结果表明准确性下降了 0.17 % 0.17\% 0.17%吞吐量降低并且由于更多的卷积运算参数和浮点运算数FLOPs增加。这证实了跨维度的共享学习能够捕获互补特征从而增强模型的表达能力。
分支。SMSA中语义特征捕获的丰富性取决于每个分支中使用的分支数量和卷积核大小。每个分支都设计为学习不同的子特征。减少分支数量会削弱模块提取固有多语义特征的能力。为了评估捕获不同语义特征对模型性能的影响我们使用了不同数量的分支和卷积核大小进行了实验。如表1的“分支”部分所示双分支结构的准确性超过了单分支结构而四分支结构又进一步优于双分支结构。这一结果支持了我们在捕获子特征间不同语义模式方面多分支、多尺度结构的有效性从而增强了模型的表征能力。随着分支数量的增加模型的内存访问开销也随之增加导致推理速度下降。
5 可视化与分析
5.1 注意力可视化
我们通过确保对关键区域给予适当关注来评估我们的方法在缓解语义差异和提高一致性方面的有效性。如图4所示与其他最先进的注意力机制相比我们的SCSA语义通道和空间注意力明显关注多个关键区域在显著减少关键信息丢失的同时提供了丰富的特征信息。我们还可视化了SCSA的组成部分包括SMSA语义多尺度注意力和PCSA位置交叉语义注意力模块。在没有PCSA模块来处理语义差异的情况下激活强度的分布仍然不够平衡。如果没有SMSA模块来引导多语义空间对重要区域的关注可能会受到限制。
5.2 有效感受野可视化
如图5所示利用多语义建模的空间结构我们的SCSA实现了更广泛的感知区域。更大的有效感受野ERF有助于网络利用丰富的上下文信息进行集体决策这是性能提升的重要因素之一。为了验证我们的方法性能受益于更大的ERF我们从ImageNet-1K验证集[44]中随机抽取了300张不同类别的图像测量原始图像中每个像素对模型第三阶段和第四阶段输出特征图中心点的贡献并通过加权和归一化的梯度值量化ERF的范围。可视化结果表明随着网络层的加深我们的SCSA的ERF变得越来越明显这证实了我们的假设和方法的有效性。
5.3 计算复杂度
给定输入 X ∈ R B × C × H × W X \in \mathbb{R}^{B \times C \times H \times W} X∈RB×C×H×W池化大小为 P × P P \times P P×P深度卷积核大小为 K × K K \times K K×K我们依次考虑维度解耦、深度共享的1D卷积、归一化、渐进压缩和通道自注意力对SCSA模块的影响。为了简化观察我们忽略系数。SCSA的计算复杂度为 Ω ( S C S A ) O ( H C W C ) O ( K H C K W C ) O ( H W C ) O ( P 2 H ′ W ′ C H ′ W ′ C ) O ( H ′ W ′ C H ′ W ′ C 2 ) \begin{aligned} \Omega(SCSA) \mathcal{O}(HCWC)\mathcal{O}(KHCKWC) \\ \mathcal{O}(HWC)\mathcal{O}\left(P^{2}H^{\prime}W^{\prime}CH^{\prime}W^{\prime}C\right) \\ \mathcal{O}\left(H^{\prime}W^{\prime}CH^{\prime}W^{\prime}C^{2}\right) \end{aligned} Ω(SCSA)O(HCWC)O(KHCKWC)O(HWC)O(P2H′W′CH′W′C)O(H′W′CH′W′C2) 其中 H ′ H^{\prime} H′ 和 W ′ W^{\prime} W′ 分别表示渐进压缩操作产生的中间特征图的高度和宽度。
我们观察到当模型宽度即通道数 C C C适中时 Ω ( S C S A ) \Omega(SCSA) Ω(SCSA) 与输入序列的长度呈线性关系。这表明当模型宽度适中时我们的SCSA可以以线性复杂度进行推理。
5.4 推理吞吐量评估
如表1和表2所示我们在消融实验中评估了SCSA各个组件的吞吐量并比较了使用不同注意力机制的各种基准模型的吞吐量。我们使用GeForce RTX 4090 GPU在224×224的分辨率下进行了实验批量大小为32以模拟实际应用并最大化GPU利用率。为了最小化变异性我们对每种注意力机制重复了100次实验并报告了平均推理时间。具体而言如表2所示尽管SCSA略慢于纯通道注意力但它优于大多数混合注意力机制包括CBAM、SANet、EMA和CPCA并实现了最高的准确性。
5.5 目标检测定性结果
如图6所示我们的方法在具有挑战性的场景中表现出优越的性能包括遮挡、密集环境、小物体群集和低光照条件。 5.6 实例分割定性结果
如图7所示我们的方法对遮挡和重叠的对象进行了更全面和准确的分割获得了更高的置信度分数。这些结果突出了我们的方法在利用多语义信息以更好地感知相关对象的上下文空间方面的优势。
5.7 语义分割定性结果
从图8可以看出我们的方法显著改善了重叠和语义相邻对象的分割有效区分了如坐在椅子上的观众和浴缸附近的厕所等场景。 6 局限性
我们证明了所提出的即插即用协同注意力方法——空间通道协同注意力SCSA在图像分类、目标检测以及实例和语义分割方面表现出色。尽管我们致力于探索不同维度之间的协同作用并已通过实证验证了利用多语义空间信息来指导通道重新校准并增强特征交互以缓解语义差异的有效性但在现实世界的部署中推理延迟仍然是一个重大挑战。我们的方法在适当的模型宽度下实现了模型参数、准确性和推理速度的最佳平衡。然而在更大的宽度下推理速度的主要瓶颈在于构建多语义空间结构时使用了深度卷积和分支这些操作具有较低的浮点运算数FLOPS频繁访问内存且计算密度较低[4,51,36]。我们认为应根据具体任务和场景优化这些即插即用注意力模块的定位和数量以确保达到峰值性能。未来我们将研究更轻量、更快的即插即用注意力机制探索不同维度之间的协同关系。
7 结论
在本研究中我们分析了大多数即插即用注意力方法在利用特征和空间及通道维度中固有的多语义信息方面存在的局限性以及语义差异带来的挑战。为解决这些问题我们提出了一种新颖的即插即用空间通道协同注意力SCSA机制该机制融合了维度解耦、轻量级多语义指导和语义差异缓解。SCSA利用多语义空间注意力来指导不同通道特征的学习随后在通道维度上应用单头自注意力来缓解语义差异并促进语义交互。大量实验表明SCSA在广泛使用的基准测试中始终优于最先进的注意力机制表现出增强的性能和稳健的泛化能力。我们希望我们的工作能够鼓励进一步探索不同领域中多个维度之间的协同特性。