LSKA（大型可分离内核注意力）：重新思考 CNN 大型内核注意力设计 - 相关工作

最编程 2024-07-11 22:14:09

...

A.带有大核的CNN

在过去的十年中，为了改进卷积神经网络（CNN）架构以适应一般的图像识别任务，已经做了大量的研究工作。除了AlexNet [13]和Inception [14]网络之外，这些CNN架构中的核设计主要局限于3×3（例如VGG [40]、ResNet [15]、MobileNets [41]），这是因为它具有随着权重层深度的增加而提高的计算效率。为了尝试使用较大的核大小，文献[42]中的作者提出了一个由相对较大的7×7核组成的局部关系网络（LR-Net）。尽管其性能优于传统的ResNets（具有相同的核大小），但当核大小进一步增加时，LR-Net的性能下降了。为了弥补层次变换器和CNN之间的性能差距，ConvNeXt [33]通过逐渐将Transformer的设计引入ResNet来进行实证研究。他们发现了几个关键组件，可以改善CNN的性能，例如改变训练过程（如Swin Transformer）、改变阶段计算比率、使用更少的激活和归一化层以及使用更大的核大小。与LR-Net类似，他们发现当核大小超过7×7时，性能会趋于饱和。

最近，[35]中的作者重新审视了长期以来被忽视的大型核CNN设计。他们证明，在MobileNetV2中，通过将一组小型权重核替换为少数重新参数化的大型权重核，可以获得大型的有效感受野(ERFs)，并部分模拟人类对物体形状的理解。他们提出的大型核网络(ReplkNet)具有31×31的大型核大小，在ImageNet分类上比Swin Transformer高出0.3%，在MS-COCO检测上比ResNet-101高出4.4%。然而，ReplkNet会产生高昂的计算开销，从而限制了其在其他领域（如分割）的有效性。例如，[43]的作者表明，原始的大型核卷积会损害分割任务的性能，因为随着核大小的增加，参数大小增加导致模型出现过度拟合问题。为了解决这个问题，他们提出了具有大型1×k和k×1卷积核的全局卷积网络(GCN) [43]，以提高语义分割性能。

最近的一项工作，SLaK [44]，观察到随着核大小增加到31、51和61以上，ReplkNet [35]的性能开始趋于平稳。为了解决大型核的可训练性问题，SLaK将大型核分解为两个矩形核（即51×5和5×51），并使用动态稀疏技术来减少可学习参数。与这些方法不同，我们在基于CNN的视觉注意力网络（VAN）中采用可分离核进行深度卷积和深度膨胀卷积，并引入注意力模块，以进一步提高其计算效率。

B.大核注意机制

注意力机制被用于选择图像中最重要区域。通常，它们可以分成四类：空间注意力 [26]、[28]、[29]、[31]，通道注意力 [26]、[27]、[45]，时间注意力 [46]、[47] 和分支注意力 [48]、[49]。在这里，我们更关注通道注意力和空间注意力，因为它们与我们的工作更相关。通道注意力关注模型层的“什么”语义属性。由于特征图的每个通道都是一个检测器的响应图，也称为滤波器 [50]，通道注意力机制允许模型关注跨通道的特定对象属性 [27]。与通道注意力不同，空间注意力关注模型应该关注“在哪里”语义相关的区域。STN [29]、GENet [51] 和非局部神经网络 [28] 是涉及不同类型空间注意力方法的一些代表性作品。

自注意力[52]是一种空间注意力，已应用于CNN和ViTs [31]，[32]。视觉注意力网络（VAN） [34]提出了一种新的CNN主干网络，该网络结合了CNN的属性和自注意力模块。作者采用了具有大型核注意力（LKA）模块的CNN网络架构，以实现CNN的局灶性、长程依赖性和自注意力模块的空间适应性特性，类似于ViTs。此外，LKA模块具有通道适应性，这在标准的CNN和变压器中的自注意力模块中并不自然存在。为了提高计算效率，LKA采用具有深度卷积的膨胀卷积[53]（DW-D-Conv）来实现更大的有效感受野（ERFs）。

即使VAN在图像分类、目标检测和语义分割方面比一系列transformer网络（如PVT-V2 [37]、Swin Transformer [32]和Twins-SVT [54]）取得了更好的性能，我们的工作表明，LSKA可以进一步降低VAN的计算复杂性，同时不损失任何性能。

上一篇： CKA 考试经验：申请和考试大纲

下一篇：生物遗传分析 23：基因对之间的正选择分析