欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

LSKA(大型可分离内核注意力):重新思考 CNN 大型内核注意力设计 - 相关工作

最编程 2024-07-11 22:14:09
...

A.带有大核的CNN

在过去的十年中,为了改进卷积神经网络(CNN)架构以适应一般的图像识别任务,已经做了大量的研究工作。除了AlexNet [13]和Inception [14]网络之外,这些CNN架构中的核设计主要局限于3×3(例如VGG [40]、ResNet [15]、MobileNets [41]),这是因为它具有随着权重层深度的增加而提高的计算效率。为了尝试使用较大的核大小,文献[42]中的作者提出了一个由相对较大的7×7核组成的局部关系网络(LR-Net)。尽管其性能优于传统的ResNets(具有相同的核大小),但当核大小进一步增加时,LR-Net的性能下降了。为了弥补层次变换器和CNN之间的性能差距,ConvNeXt [33]通过逐渐将Transformer的设计引入ResNet来进行实证研究。他们发现了几个关键组件,可以改善CNN的性能,例如改变训练过程(如Swin Transformer)、改变阶段计算比率、使用更少的激活和归一化层以及使用更大的核大小。与LR-Net类似,他们发现当核大小超过7×7时,性能会趋于饱和。

最近,[35]中的作者重新审视了长期以来被忽视的大型核CNN设计。他们证明,在MobileNetV2中,通过将一组小型权重核替换为少数重新参数化的大型权重核,可以获得大型的有效感受野(ERFs),并部分模拟人类对物体形状的理解。他们提出的大型核网络(ReplkNet)具有31×31的大型核大小,在ImageNet分类上比Swin Transformer高出0.3%,在MS-COCO检测上比ResNet-101高出4.4%。然而,ReplkNet会产生高昂的计算开销,从而限制了其在其他领域(如分割)的有效性。例如,[43]的作者表明,原始的大型核卷积会损害分割任务的性能,因为随着核大小的增加,参数大小增加导致模型出现过度拟合问题。为了解决这个问题,他们提出了具有大型1×k和k×1卷积核的全局卷积网络(GCN) [43],以提高语义分割性能。

最近的一项工作,SLaK [44],观察到随着核大小增加到31、51和61以上,ReplkNet [35]的性能开始趋于平稳。为了解决大型核的可训练性问题,SLaK将大型核分解为两个矩形核(即51×5和5×51),并使用动态稀疏技术来减少可学习参数。与这些方法不同,我们在基于CNN的视觉注意力网络(VAN)中采用可分离核进行深度卷积和深度膨胀卷积,并引入注意力模块,以进一步提高其计算效率。

B.大核注意机制

注意力机制被用于选择图像中最重要区域。通常,它们可以分成四类:空间注意力 [26]、[28]、[29]、[31],通道注意力 [26]、[27]、[45],时间注意力 [46]、[47] 和分支注意力 [48]、[49]。在这里,我们更关注通道注意力和空间注意力,因为它们与我们的工作更相关。通道注意力关注模型层的“什么”语义属性。由于特征图的每个通道都是一个检测器的响应图,也称为滤波器 [50],通道注意力机制允许模型关注跨通道的特定对象属性 [27]。与通道注意力不同,空间注意力关注模型应该关注“在哪里”语义相关的区域。STN [29]、GENet [51] 和非局部神经网络 [28] 是涉及不同类型空间注意力方法的一些代表性作品。

自注意力[52]是一种空间注意力,已应用于CNN和ViTs [31],[32]。视觉注意力网络(VAN) [34]提出了一种新的CNN主干网络,该网络结合了CNN的属性和自注意力模块。作者采用了具有大型核注意力(LKA)模块的CNN网络架构,以实现CNN的局灶性、长程依赖性和自注意力模块的空间适应性特性,类似于ViTs。此外,LKA模块具有通道适应性,这在标准的CNN和变压器中的自注意力模块中并不自然存在。为了提高计算效率,LKA采用具有深度卷积的膨胀卷积[53](DW-D-Conv)来实现更大的有效感受野(ERFs)。

即使VAN在图像分类、目标检测和语义分割方面比一系列transformer网络(如PVT-V2 [37]、Swin Transformer [32]和Twins-SVT [54])取得了更好的性能,我们的工作表明,LSKA可以进一步降低VAN的计算复杂性,同时不损失任何性能。