深度解析神经网络的正向传播与反向传播过程（一步步详解）

最编程 2024-07-24 22:41:57

...

详解神经网络的前向传播和反向传播

本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读，有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。

对神经网络有些了解的人可能都知道，神经网络其实就是一个输入 X 到输出 $Y$ 的映射函数： f(X)=Y ，函数的系数就是我们所要训练的网络参数 W ，只要函数系数确定下来，对于任何输入 $x_{i}$ 我们就能得到一个与之对应的输出 yi ，至于 yi 是否符合我们预期，这就属于如何提高模型性能方面的问题了，本文不做讨论。

那么问题来了，现在我们手中只有训练集的输入 X 和输出 $Y$ ，我们应该如何调整网络参数 W 使网络实际的输出 $f (X) = \hat{Y}$ 与训练集的 Y 尽可能接近？

在开始正式讲解之前，让我们先对反向传播过程有一个直观上的印象。反向传播算法的核心是代价函数 $C$ 对网络中参数（各层的权重 w 和偏置 $b$ ）的偏导表达式 ∂C∂w 和 ∂C∂b 。这些表达式描述了代价函数值 C 随权重 $w$ 或偏置 b 变化而变化的程度。到这里，BP算法的思路就很容易理解了：如果当前代价函数值距离预期值较远，那么我们通过调整 $w$ 和 b 的值使新的代价函数值更接近预期值（和预期值相差越大，则 $w$ 和 b 调整的幅度就越大）。一直重复该过程，直到最终的代价函数值在误差范围内，则算法停止。