如何在分块矩阵中计算伪逆？ - 问题详细说明

最编程 2024-02-13 20:46:09

...

矩阵的伪逆

已知样本集合 $S=\{(x_i, y_i)|i=1,2,\ldots,N\}$ ， $x\in R^d, y\in R^{l}$ 。

特征矩阵 $X\in R^{N\times d}$ ，输出矩阵为 $Y\in R^{N \times l}$ ，需要学习的矩阵为 $W\in R^{d\times l}$ 。

根据原问题：
$Y = X W$
可得：
$X^\dagger Y$
其中 $X^\dagger$ 表示 $X$ 的伪逆。

当 $X$ 列满秩时i， $X^\dagger = (X^\top X)^{-1}X^T$ ；否则根据岭回归算法， $X^\dagger = (X^\top X + \beta I)^{-1}X^T$ 。

增量学习

当我们有了数据 $X$ 和标签 $Y$ ，求出了 $X^\dagger Y$ ，系统就可以运行了：来了新的输入 $x\in R^d$ ，计算输出 $y = x W$ 。

现在突然要给原数据增加一个维度，即新增一种特征，使得新的特征矩阵变成 $X_{+}= [X|a] \in R^{N \times (d+1)}$ 。

这样一来原来算好的 $W$ 就不能用了，只能重新算过 $W_+ = X_+^\dagger Y$ 。

问题就在于计算 $X_+^\dagger$ ，如果你直接用岭回归计算，不叫增量学习。

有没有办法利用之前的计算结果 $X^\dagger$ 来计算新的 $X_+^\dagger$ 呢？这就是我接下来要介绍的内容：分块矩阵的伪逆。

????

我们现在唯一知道的就是: $I_{d+1} = X_+^\dagger X_+ = X_+^\dagger [X|a]$

已知 $X_+^\dagger\in R^{(d+1)\times N}$ ，不妨假设
$X_+^\dagger = \left[ \begin{array}{l} A \\ b^\top \end{array} \right]_{(d+1)\times N}$
其中 $A\in R^{d\times N}, b\in R^{N \times 1}$ 。因为 $A$ 和 $X^\dagger$ 的维数是相同的，不妨假设 $X^\dagger -C$ 。

现在
$X_+^\dagger = \left[ \begin{array}{l} X^\dagger -C \\ b^\top \end{array} \right]_{(d+1)\times N}$

现在问题转化成求出合适的 $C, b$

根据伪逆的定义，
$X_+^\dagger X_+ = I$ 即
$\left[ \begin{array}{l} X^\dagger -C \\ b^\top \end{array} \right] \left[ \begin{array}{l} X &a \end{array} \right] = \left[ \begin{array}{l} X^\dagger X -CX & X^\dagger a-Ca \\ b^\top X & b^\top a \end{array} \right]= I$
得出以下结论：
$\begin{array}{lr} X^\dagger X -CX = I \Rightarrow CX=0& (1)\\ X^\dagger a-Ca = 0 & (2)\\ b^\top X = 0 & (3)\\ b^\top a = 1 & (4) \end{array}$
由(1)(3)可知， $\forall C=cb^\top, c\in R^d$ ，只要(3)满足，就有(1)满足。

把 $cb^\top$ 带入(2)，并利用条件(4)，可得：
$X^\dagger a-cb^\top a = X^\dagger a-c=0 \Rightarrow c=X^\dagger a$
到这里我们已经成功了一半，因为 $C$ 已经解出来了：
$X^\dagger a b^\top$

行百里者半九十，做出一半和啥也没做是一样的！我们继续来求 $b$ 。

我们现有的条件是等式(3)(4)，你能想到答案了吗？

不能？

在这里插入图片描述
好吧，现在看着这张图告诉我，满足
$\begin{array}{lr} b^\top X = 0 & (3)\\ b^\top a = 1 & (4) \end{array}$ 的 $b$ 是什么？
$\frac{r}{r^\top r}, \quad \text{其中} \quad r = a-XX^\dagger a$
懂了吧！

那你要是问我： $r = 0$ 怎么办？

$r = 0$ 说明 $a$ 正好落在 $X$ 的列空间里，那么你把 $X$ 扩展成 $X_+=[X | a]$ 的意义何在？

最后，
$W_+ = X_+^\dagger Y=\left[ \begin{array}{l} W-db^TY \\ b^\top Y \end{array} \right]$
先算 $b^\top Y$ ，再算 $W_+$ ，效率奇高。

上一篇：在R语言中如何求解矩阵的逆矩阵？

下一篇：用Unity制作卡通风格的游戏画面