利用LBFGS算法进行数值计算的拟牛顿法

最编程 2024-08-13 11:32:37

...

上篇记录了拟牛顿法的思路：通过迭代矩阵 $G_{k}$ 近似海森矩阵 $H_k^{-1}$ ，满足拟牛顿条件：
$G_{k+1}(J({\bf x}_{k+1})-J({\bf x}_k))={\bf x}_{k+1} - {\bf x}_{k} \\$
构造迭代表达式：
$G_{k+1}=G_k+P_k+Q_k \\ G_{k+1}y_k = s_k=G_ky_k+P_ky_k+Q_ky_k$

DFP算法用 $G_k$ 近似 $H_k^{-1}$ ：
$G_{k+1} = G_k+ \frac{s_ks_k^T}{s_k^Ty_k} - \frac {G_ky_ky_k^TG_k}{y_k^TG_ky_k} \\$

BFGS算法用 $B_k^{-1}$ 近似 $H_k^{-1}$ ：
$B_{k+1}^{-1} = (I - \frac{s_ky_k^T}{y_k^Ts_k})B_k^{-1}(I-\frac{y_ks_k^T}{y^T_ks_k}) + \frac{s_ks_k^T}{y_k^Ts_k}$

迭代过程中，需要存储近似矩阵 $G_k$ 或 $B_k$ ，当输入维度很大时，这个近似矩阵所需的内存非常惊人，比如输入维度为10000，则存储 $G$ 需要400MB，因此在大规模优化问题中，通常使用LBFGS算法来降低内存消耗

上一篇：使用Logistic回归进行病马死亡率预测的实战技巧（三）

下一篇： Optimization of Machine Learning