计算机视觉应用 29-卷积神经网络（CNN）的变体：分组卷积、转置卷积和空卷积的计算过程-IV。空卷积简述

最编程 2024-05-01 09:03:55

...

空洞卷积（Dilated Convolution），也称为扩张卷积，是一种卷积操作的变体，它通过在卷积核之间插入“空洞”来增加感受野，而不增加参数数量或计算量。这种操作允许卷积层在保持相同参数数量的同时，覆盖更大的输入区域，从而捕捉更广泛的上下文信息。

空洞卷积的基本操作：

定义空洞率：空洞卷积通过一个称为“空洞率”（dilation rate）的参数来控制卷积核之间的间隔。空洞率定义了卷积核中的元素之间的间隔大小。例如，对于一个3x3的卷积核和空洞率2，卷积核的有效大小相当于5x5，但实际上只有9个参数。
应用卷积核：在应用卷积核时，根据空洞率在输入特征图上跳过一些像素。这相当于在卷积核之间插入“空洞”，从而在不增加参数数量的情况下增加感受野。
计算输出：除了跳过像素外，空洞卷积的计算方式与传统卷积相同。每个卷积核的元素与输入特征图上的相应元素相乘，然后将乘积求和得到输出特征图的一个元素。

应用场景：

空洞卷积在以下场景中特别有用：

增加感受野：在保持计算成本不变的情况下，空洞卷积允许网络捕捉更广泛的上下文信息，这对于需要大感受野的任务（如语义分割）非常有用。
保持分辨率：在传统的卷积神经网络中，多次卷积和池化操作会逐渐降低特征图的分辨率。空洞卷积可以在不降低分辨率的情况下增加感受野，这对于需要高分辨率输出的任务很有帮助。
减少参数数量：对于资源受限的环境，如移动设备，空洞卷积提供了一种在不增加参数数量的情况下增加模型容量的方法。

计算例子：

假设我们有一个 $\times 7$ 的输入特征图，我们想要应用一个 $\times 3$ 的卷积核，但使用空洞卷积，设置空洞率为2。
在标准卷积中， $\times 3$ 卷积核会覆盖输入特征图上连续的 $\times 3$ 区域。但在空洞卷积中，由于空洞率为2，卷积核在输入特征图上的覆盖区域将变成 $\times 7$ ，但仍然只有9个参数。
空洞卷积的输出特征图大小 $O$ 可以通过以下公式计算：
$\frac{I + 2p - k - (k - 1) \times (d - 1)}{s} + 1$
其中， $I$ 是输入特征图的尺寸， $p$ 是填充， $k$ 是卷积核的尺寸， $d$ 是空洞率， $s$ 是步幅。
在我们的例子中，输入特征图的尺寸是 $\times 7$ ，卷积核尺寸 $k = 3$ ，空洞率 $d = 2$ ，无填充（ $p = 0$ ），步幅 $s = 1$ ，所以输出特征图的尺寸是：
$\frac{7 + 2 \times 0 - 3 - (3 - 1) \times (2 - 1)}{1} + 1 = 5$
这意味着输出特征图的尺寸将是 $\times 5$ 。
空洞卷积的一个典型例子是在DeepLab系列网络中，它是一种用于语义分割的卷积神经网络架构。DeepLab利用空洞卷积来增加感受野，从而能够捕捉到更大范围的上下文信息，提高分割的准确性。

上一篇：温故而知新

下一篇：论语-为政》--温故而知新