理解 LSTM 神经网络的前向与后向传播机制

最编程 2024-07-24 22:15:05

...

上篇文章我们

RNN模型具有如下所示的结构，其中每个索引位置t都有一个隐藏状态h(t)。

为解决梯度消失的问题，大牛们针对RNN序列索引位置t的隐藏结构作出相应改进，进而提出LSTM模型。其中LSTM模型有多种形式，下面我们以最常见的LSTM模型为例进行讲解。

除了细胞状态外，LSTM中还多了很多奇怪的结构，称之为门控结构(Gate)。针对每个序列索引位置t，门控结构一般包含遗忘门、输入门和输出门，下面来看看门控结构和细胞状态的结构。

遗忘门(forget gate)是以一定的概率控制是否遗忘上一层的隐藏细胞状态，遗忘门的结构如下所示。

输入门(input gate)负责处理当前序列位置的输入，输入门的结构如下所示。

研究LSTM输出门之前，我们先看一下LSTM细胞状态的更新，其中遗忘门和输入门的结果都作用于细胞状态C(t)。

有了新的隐藏细胞状态C(t)，便可以来看输出门，其结构如下所示。

通过上面的介绍，已经能够得到LSTM前向传播算法主要包括更新遗忘门输出、更新输入门、更新细胞状态、更新输出门、更新当前序列索引预测输出，各传播过程如下所示。

了解前向传播算法流程之后，对于反向传播算法就非常简单了。我们采用和RNN相同的反向传播算法思路，即通过梯度下降法迭代更新所有的参数。

LSTM虽然复杂，但能够很好的解决梯度消失和梯度爆炸的问题，只要我们理清各部分之间的关系，进而理解前向和反向传播算法还是不难的。针对RNN和LSTM之中的梯度消失和梯度爆炸的描述，如果有相应错误，欢迎指出。

你看到的这篇文章来自于公众号「谓之小一」，欢迎关注我阅读更多文章。

入门深度学习1：理解深度前馈神经网络与反向传播机制