透彻掌握Batch-Normalization的前向传播（Forward Pass）、反向传播（Backward Pass）及其实现代码详解

最编程 2024-07-24 21:57:45

...

深入理解 Batch-Normalization

BN 能显著提升神经网络模型的训练速度(论文)，自2015年被推出以来，已经成为神经网络模型的标准层。

现代深度学习框架（如 TF、Pytorch 等）均内置了 BN 层，使得我们在搭建网络轻而易举。但这也间接造成很多人对于 BN 的理解只停留在概念层面，而没有深入公式，详细推导其行为（前向传播+反向传播）。

本文的主旨则是从数学公式层面，详细推导 BN，并通过代码手动实现BN 层。

一、BN 的前向传播

让我们从原论文中最出名的一张图开始吧：

（图1： BN 的前向传播）

BN的前向传播过程分别在不同阶段的行为可以概述如下：

训练阶段：

对每个批次的输入 x，[ ‼️重要：在batch 方向上‼️]，计算均值 ${\mu}_B$ 和方差 ${\sigma}^2_B$ :
- ${\mu}_B = \frac{1}{m} \sum_i^m{x_i}$
- ${\sigma}^2_B = \frac{1}{m} \sum_i^m{{(x_i - {\mu}_B)}^2}$
利用 ${\mu}_B$ 和 ${\sigma}^2_B$ 对输入 x 进行标准化：
- $\hat{x_i} = \frac{x_i - \mu_B}{\sqrt{{\sigma}^2_B + \epsilon}}$
引入可学习参数 $\gamma$ 和 $\beta$ , 对标准化后的 $\hat{x_i}$ 进行缩放和平移，作为 BN 层的最终输出值：
- $y_i=\gamma\hat{x_i}+\beta$

注意：
训练过程 中会以指数平均的方式计算整个训练集的 平均均值(running mean) 和 平均方差(running_var)，这两个值将在 测试阶段 代替 ${\mu}_B$ 和 ${\sigma}^2_B$ 对 x 进行归一化：

$running\_mean=momentum * running\_mean + (1-momentum)*\mu_B$
$running\_var=momenutm * running\_var + (1-momentum)*\sigma^2_B$

测试阶段
在这个阶段的计算流程大体与训练阶段相同，但不会计算 ${\mu}_B$ 和 ${\sigma}^2_B$ ，而是分别以 running_mean 和 running_var 代替。

说明：

对于 Linear 层，设 x 的维度为 [N, D]；那么上面那些公式中的值都是什么维度？
- ${\mu}_B$ 和 ${\sigma}^2_B$ ： [D]
- $\hat{x_i}$ 和 $y_i$ : [N,D]
- running_mean 和 running_var: [D]
- $\gamma$ 和 $\beta$ : [D]
如果是Conv 层，设 x 的维度为 [N, C, H, W]; 那么上面那些公式中的值都是什么维度？
- 这种情况要特别注意⚠️，对于卷基层，BN 计算均值和方差将会考虑 H 和 W 的维度，在 Pytorch 中称为 BatchNorm2D，如下图所示：
  
  （图2： BatchNorm2D）

二、BN 的反向传播

反向传播的要点是找到 Loss 对当前节点中所有参数的梯度以及对节点的输入张量 x 的梯度，即 $\frac{\partial L}{\partial \gamma}$ 、 $\frac{\partial L}{\partial \beta}$ 以及 $\frac{\partial L}{\partial x}$ 。

由 链式法则可知，这些梯度均等于 上游梯度 * 局部梯度：

∂ L ∂ γ = ∂ L ∂ o u t ∗ ∂ o u t ∂ γ \frac {\partial L}{\partial \gamma}=\frac {\partial L}{\partial out}*\frac {\partial out}{\partial \gamma}
∂γ∂L=∂out∂L∗
上一篇：跟随我从零开始学神经网络：理解前向传播步骤

下一篇： Python里的深度学习教程（第21章）：在Keras中如何查看某层的前向传播输出结果

推荐阅读

透彻掌握Batch-Normalization的前向传播（Forward Pass）、反向传播（Backward Pass）及其实现代码详解

透彻掌握Batch-Normalization的前向传播（Forward Pass）、反向传播（Backward Pass）及其实现代码详解

深入理解 Batch-Normalization

一、BN 的 前向传播

二、BN 的 反向传播