欢迎您访问最编程本站为您分享编程语言代码，编程技术文章！

热门搜索/Hot Search

您现在的位置是：首页

梯度下降法参数更新公式的推导

最编程 2024-04-17 21:57:27

...

先来回顾一下梯度下降法的参数更新公式：

（其中，α是学习速率，是梯度）

这个公式是怎么来的呢？下面进行推导：

首先，如果一个函数 n 阶可导，那么我们可以用多项式仿造一个相似的函数，这就是泰勒展开式。其在a点处的表达式如下：

可以看出，随着式子的展开，这个展开式越来越接近于原函数。

如果用一阶泰勒展开式，得到的函数近似表达式就是：。想像梯度下降就是站在山坡上往下走，是原点，是往下走一步后所处的点。

我们知道梯度下降每走一步都是朝着最快下山的方向，因此应该最小化。

我们使用一个向量来表示：，也是一个向量，那么上式可写成：。

既然我们要使最小，那么只有当等于-1，也就是和这两个向量反方向时，才会最小。

当和反方向时，我们可以用向量来表示：。（其中表示长度大小）

因为：，代入可得：。

这样就可以得到参数更新公式：。（其中是步长，是函数在时的梯度）

因为我们使用的是一阶泰勒展开式，因此要非常小，式子才成立。也就是说学习速率要非常小才行。所以如果你要让你的损失函数越来越小的话，梯度下降的学习速率就要非常小。如果学习速率没有设好，有可能更新参数的时候，函数近似表达式是不成立的，这样就会导致损失函数没有越变越小。

上一篇：最全面的 RocketMQ (V3_2_6 -> V4.6.0) 在线平滑升级指南 - II.

下一篇：客户端软件升级的一般程序

推荐阅读