欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

[高等代数] 6.矩阵 (1)

最编程 2024-07-03 13:17:34
...

【高等代数】6. 矩阵(1)

目录
  • 【高等代数】6. 矩阵(1)
    • 3.1 矩阵的代数运算
    • 3.2 Binet-Cauchy公式

3.1 矩阵的代数运算

矩阵是线性代数研究的基本对象,按照矩阵的观点,线性代数就是研究矩阵字啊各种意义下的分类问题及其标准形的理论。一般地,矩阵是由数域\(F\)上的\(m\times n\)个数\(a_{ij}\)\(i=1,\cdots,m\)\(n=1,\cdots,n\),按照顺序排成一个\(m\)\(n\)列的长方形表,记作矩阵\(A\),数域\(F\)上所有\(m\times n\)矩阵的集合记作\(F^{m\times n}\)。矩阵\(A\)的第\((i,j)\)元素即\(a_{ij}\)。如果\(m=n\),就称\(A\)\(n\)阶方阵。

矩阵作为空间中的元素需定义运算,对\(F^{m\times n}\)上的两个矩阵\(A=(a_{ij}),B=(b_{ij})\),如果对所有\(i,j\)都有\(a_{ij}=b_{ij}\),就称\(A=B\)。定义矩阵的和\(A+B\)\((a_{ij}+b_{ij})_{n\times n}\),即对应元素相加,显然矩阵的和满足:

  • \((A1)\)加法结合律:\((A+B)+C=A+(B+C)\)

  • \((A2)\)加法交换律:\(A+B=B+A\)

  • \((A3)\)零矩阵:存在所有系数都是\(0\)的矩阵记作\(0_{m\times n}\),满足对所有的\(A\)\(A+0=0+A=A\)

  • \((A4)\)负矩阵:对任何矩阵\(A\),存在\(B\)使\(A+B=B+A=0\),记\(B=-A\)

    由负矩阵可引入矩阵减法:\(A-B=A+(-B)\),它与通常数的减法具有相同的性质。

对矩阵也可以如同向量一般定义数乘运算\(\lambda A=(\lambda a_{ij})_{m\times n}\),它满足:

  • \((M1)\)乘法结合律:\((\lambda \mu)A=\lambda(\mu A)\)
  • \((M2)\)单位元素:\(1A=A\)
  • \((D1)\)矩阵关于纯量的分配率:\((\lambda+\mu)A=\lambda A+\mu A\)
  • \((D2)\)纯量关于矩阵的分配率:\(\lambda(A+B)=\lambda A+\lambda B\)

从这里已看出,\(F^{m\times n}\)完全具有\(F^{n}\)上的运算规律,它是一个推广的向量空间。事实上,当\(m=1\)时,矩阵退化为\(1\)\(n\)列的矩阵,即数域\(F^{n}\)上的\(n\)维列向量;当\(n=1\)时,矩阵退化为\(m\)\(1\)列的矩阵,即数域\(F^{m}\)上的\(m\)维列向量。这说明\(F^{m\times n}\)\(F^{n}\)的自然推广。

与向量空间不同的是,矩阵空间具有乘法概念,这一概念并不在\(F^{m\times n}\)上封闭,也实际上不定义在\(F^{m\times n}\)上。矩阵乘法是一个二元运算,其左矩阵的列数必须等于右矩阵的行数(关联维数相等),这一乘法才有意义。

  • 矩阵乘法:设\(A\in F^{m\times n}\)\(B\in F^{n\times p}\),记\(A=(a_{ik})_{m\times n}\)\(B=(b_{kj})_{n\times p}\),则\(AB\)是一个\(m\times p\)矩阵\(c_{ij}\),满足
    \[c_{ij}=\sum_{k=1}^{n}a_{ik}b_{kj},\quad i=1,\cdots,m;j=1,\cdots,p. \]
    \[AB=\begin{bmatrix} \displaystyle\sum_{k=1}^{n}a_{1k}b_{k1} & \displaystyle\sum_{k=1}^{n}a_{1k}b_{k2} & \cdots & \displaystyle\sum_{k=1}^{n}a_{1k}b_{kp} \\ \displaystyle\sum_{k=1}^{n}a_{2k}b_{k1} & \displaystyle\sum_{k=1}^{n}a_{2k}b_{k2} & \cdots & \displaystyle\sum_{k=1}^{n}a_{2k}b_{kp} \\ \vdots & \vdots & & \vdots \\ \displaystyle\sum_{k=1}^{n}a_{mk}b_{k1} & \displaystyle\sum_{k=1}^{n}a_{mk}b_{k2} & \cdots & \displaystyle\sum_{k=1}^{n}a_{mk}b_{kp} \end{bmatrix}. \]

矩阵乘法与一般数的乘法不同,这一点需要格外注意。

  1. 矩阵乘法满足结合律:对\(A\in F^{m\times n}\)\(B\in F^{n\times p}\)\(C\in F^{p\times q}\),均有\((AB)C=A(BC)\)

    首先这里涉及到的四个矩阵乘法都是成立的,且最终结果都是\(m\times q\)矩阵。

    \[[(AB)C]_{ij}=\sum_{l=1}^{p}\left(\sum_{k=1}^{n}a_{ik}b_{kl} \right)c_{lj}=\sum_{l=1}^{p}\sum_{k=1}^{n}a_{ik}b_{kl}c_{lj}=\sum_{k=1}^{n}a_{ik}\left(\sum_{l=1}^{p}b_{kl}c_{lj} \right)=[A(BC)]_{ij}. \]

    这里主要运用了双重连加号的可交换性。

  2. 矩阵乘法不满足交换律。一方面,\(AB\)有意义时\(BA\)不一定有意义;另一方面,即使\(AB\)\(BA\)都有意义,\(AB\)\(BA\)也不一定可比较;最后,即使\(AB\)\(BA\)都有意义且可比,也可能\(AB\ne BA\)

    特别当\(AB=BA\)成立时,我们称\(A\)\(B\)是可交换的。

  3. 关于纯量的可结合率:\((\lambda A)B=A(\lambda B)=\lambda(AB)\)

  4. 矩阵乘法满足分配率:\((A+B)C=AC+BC\)\(A(B+C)=AB+AC\)

  5. 矩阵乘法不满足消去律:\(AB=AC\)不一定有\(B=C\)\(AB=0\)不一定有\(A=0\)\(B=0\)

我们会看到方阵在矩阵中具有格外重要的作用,因为它对实数有着最大的类比可能——可自乘、多项式化、有单位阵等等。类比数量乘法的幂运算,可对矩阵也建立幂运算,这要求矩阵与自身是可乘的,即\(A\)是方阵。有了幂运算后,就可以类似定义矩阵的多项式。

  • 方阵的幂:对方阵\(A\in F^{n\times n}\),定义其\(k\)次幂为

    \[A^{k}=\underbrace{AA\cdots A}_{k个}. \]
  • 单位阵:称主对角元素都是\(1\),而其他元素都是\(0\)\(n\)阶方阵为\(n\)阶单位阵,记作\(I_{(n)}\),即

    \[I_{(n)}=\begin{pmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots & 1 \end{pmatrix}. \]

    显然对任何\(A\in F^{m\times A}\),有\(I_{(m)}A=AI_{(n)}=A\),且\(I_{(n)}\)\(F^{n\times n}\)中的单位元素。特别地,对任何\(A\in F^{n\times n}\),定义\(A^{0}=I_{(n)}\)

  • 方阵多项式:设\(f(\lambda)=\displaystyle{\sum_{i=0}^{n}a_i\lambda^i}\)是数域\(F\)上关于\(\lambda\)的多项式,则记

    \[f(A)=\sum_{i=0}^{n}a_iA^{i}, \]

    称为方阵\(A\)的多项式。

对方阵多项式,其性质完全由多项式和矩阵\(A\)本身决定。设\(f(\lambda)+g(\lambda)=p(\lambda)\)\(f(\lambda)g(\lambda)=q(\lambda)\),则

  1. \(f(A)g(A)=q(A)=g(A)f(A)\),即\(f(A)\)\(g(A)\)可交换。
  2. \(f(A)+g(A)=p(A)\)

在线性方程组中我们已经提到了矩阵\(A\)的转置\(A^{\intercal}\),现在专门给出它的运算性质:

  1. \(A,B\in F^{m\times n}\),有\((A+B)^{\intercal}=A^{\intercal}B^{\intercal}\)

  2. \(\lambda\in F\)\(A\in F^{m\times n}\),有\((\lambda A)^{\intercal}=\lambda A^{\intercal}\)

  3. \(A\in F^{m\times n}\)\(B\in F^{n\times p}\),有\((AB)^{\intercal}=B^{\intercal}A^{\intercal}\)。对可乘矩阵\(A_1,\cdots,A_k\),有

    \[(A_1A_2\cdots A_k)^{\intercal}=A_k^{\intercal}A_{k-1}^{\intercal}\cdots A_1^{\intercal}. \]
  4. \(A\in F^{m\times n}\)\((A^{\intercal})^{\intercal}=A\)

对复矩阵\(A=(a_{ij})\in \mathbb{C}^{m\times n}\),可定义其共轭矩阵\(\bar A=(\bar{a}_{ij})_{m\times n}\),它具有以下性质:

  1. \(A,B\in\mathbb{C}^{m\times n}\),有\(\overline{A+B}=\bar{A}+\bar{B}\)
  2. \(\lambda \in \mathbb{C}\)\(A\in\mathbb{C}^{m\times n}\),有\(\overline{\lambda A}=\bar{\lambda}\bar{A}\)
  3. \(A\in\mathbb{C}^{m\times n}\)\(B\in\mathbb{C}^{n\times p}\),有\(\overline{AB}=\bar{A}\bar{B}\)
  4. \(A\in\mathbb{C}^{m\times n}\),有\(\overline{A^{\intercal}}=(\bar{A})^{\intercal}\),记作\(\bar{A}^{\intercal}\)

矩阵分块是处理矩阵的一个重要方法,也是理解难点之一,需要格外注意。在矩阵分块时,设想用一些水平线和竖直线把\(A_{m\times n}\)分成若干个长方形小块,分解为

\[A=\begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1q} \\ A_{21} & A_{22} & \cdots & A_{2q} \\ \vdots & \vdots & & \vdots \\ A_{p1} & A_{p2} & \cdots & A_{pq} \end{pmatrix}, \]

其中每个\(A_{ij}\)\(m_i\times n_j\)型子矩阵,\(\displaystyle{\sum_{i=1}^{p}m_i=m}\)\(\displaystyle{\sum_{j=1}^{q}n_j=n}\)。矩阵分块带来的好处是,在对矩阵进行运算时,可以将这里的每一个矩阵视为一个独立的元素进行运算,尤其体现在矩阵乘法上具有优势。特别要注意的是,对于矩阵转置,我们有

\[A^{\intercal}=\begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1q} \\ A_{21} & A_{22} & \cdots & A_{2q} \\ \vdots & \vdots & & \vdots \\ A_{p1} & A_{p2} & \cdots & A_{pq} \end{pmatrix}^{\intercal}=\begin{pmatrix} A_{11}^{\intercal} & A_{21}^{\intercal} & \cdots & A_{p1}^{\intercal} \\ A_{12}^{\intercal} & A_{22}^{\intercal} & \cdots & A_{p2}^{\intercal} \\ \vdots & \vdots & & \vdots \\ A_{1q}^{\intercal} & A_{2q}^{\intercal} & \cdots & A_{pq}^{\intercal} \end{pmatrix}. \]

这里提出一种重要类型的矩阵:分块三角阵。设\(A\)分块后具有如下的形式:

\[A=\begin{pmatrix} A_{11} & A_{12} & A_{13} & \cdots & A_{1q} \\ 0 & A_{22} & A_{23} & \cdots & A_{2q} \\ 0 & 0 & A_{33} & \cdots & A_{3q} \\ \vdots & \vdots & \vdots & & \vdots\\ 0 & 0 & 0 & \cdots & A_{pq} \end{pmatrix}. \]

这种矩阵也称为准上三角的,类似可定义准下三角的。对于分块三角矩阵,由Laplace展开定理,\(\det A=\det A_{11}\det A_{22}\cdots\det A_{qq}\)。如果一个矩阵既是准上三角的,又是准下三角的,就称之为准对角的,记作\(A=\mathrm{diag}(A_{11},A_{22},\cdots,A_{qq})\),特别当每一个\(A_{ii}\)都是一阶子矩阵\(a_{ii}\)时,准对角阵是对角阵。

3.2 Binet-Cauchy公式

上一节中特意提出了方阵在矩阵中的重要地位,本节对方阵作进一步探讨,研究两个作用在\(F^{n\times n}\)上取值在\(F\)上的重要函数:矩阵的迹与行列式。

  • 方阵的迹:\(n\)阶方阵\(A=(a_{ij})\)的所有对角元素之和记作\(\mathrm{tr}(A)\),即
    \[\mathrm{tr}(A)=a_{11}+a_{22}+\cdots+a_{nn}. \]

迹变换在矩阵与一般函数的复合运算上起着很大的作用,它满足以下结论:

  1. \(\lambda\in F\)\(A,B\in F^{n\times n}\),则\(\mathrm{tr}(A+B)=\mathrm{tr}(A)+\mathrm{tr}(B)\)\(\mathrm{tr}(\lambda A)=\lambda\mathrm{tr}(A)\)

  2. \(A,B\in F^{n\times n}\),则\(\mathrm{tr}(AB)=\mathrm{tr}(BA)\)。事实上,对任何可乘且乘积是方阵的矩阵\(AB\),此结论都成立。

    不妨设\(A=(a_{ij})_{p\times q}\)\(B=(b_{ij})_{q\times p}\),则\(AB\)可乘。现

    \[\mathrm{tr}(AB)=\sum_{k=1}^{p}\sum_{i=1}^{q}a_{ki}b_{ik}=\sum_{i=1}^{q}\sum_{k=1}^{p}b_{ik}a_{ki}=\mathrm{tr}(BA). \]
  3. \(A\in F^{n\times n}\),则\(\mathrm{tr}(A)=\mathrm{tr}(A^{\intercal})\)

  4. \(A\in\mathbb{C}^{n\times n}\),则\(\mathrm{tr}(A\bar{A}^{\intercal})=0\)等价于\(A=0\)

对行列式,我们已经在第二章中给出了详细的讨论,现对于行列式,很容易验证\(\det(A+B)\ne \det A+\det B\)\(\det (\lambda A)\ne \lambda \det A\),即行列式不像迹那样,是线性函数。但行列式却是方阵的可乘函数。

  • 定理:设\(A,B\in F^{n\times n}\),则\(\det(AB)=\det A\det B\)

    \(A=(a_{ij})\)\(B=(b_{ij})\)\(C=(c_{ij})\)\(\xi_i=(b_{i1},\cdots,b_{in})\)\(B\)的第\(i\)个行向量,\(\eta_i\)\(C\)的第\(i\)个行向量,则运用分块矩阵的乘法,可以得到

    \[C=\begin{pmatrix} \displaystyle\sum_{j=1}^{n}a_{1j}\xi_j \\ \displaystyle\sum_{j=1}^{n}a_{2j}\xi_j \\ \vdots \\ \displaystyle\sum_{j=1}^{n}a_{nj}\xi_j \end{pmatrix}=\begin{pmatrix} \eta_1 \\ \eta_2 \\ \vdots \\ \eta_n \end{pmatrix}. \]

    由行列式定义,

    \[\det C=\det\left(\displaystyle\sum_{j=1}^{n}a_{1j}\xi_j,\sum_{j=1}^{n}a_{2j}\xi_j,\cdots,\sum_{j=1}^{n}a_{nj}\xi_j \right)=\sum_{1\le j_1,\cdots,j_n\le n}a_{1j_1}\cdots a_{nj_n}\det(\xi_{j_1},\cdots,\xi_{jn}). \]

    注意到当\(j_1,\cdots,j_n\)中有两项相等时,\(\det(\xi_{j_1},\cdots,\xi_{j_n})=0\),剩下的项应当是\(j_1,\cdots,j_n\)构成\(1,\cdots,n\)的排列,所以

    \[\begin{aligned} \det C&=\sum_{1\le j_1,\cdots,j_n\le n}a_{1j_1}\cdots a_{nj_n}\det(\xi_{j_1},\cdots,\xi_{jn})\\ &=\sum_{\pmatrix{1,2,\cdots,n\\j_1j_2\cdots j_n}}a_{1j_1}\cdots a_{nj_n}\delta\pmatrix{1,2,\cdots,n\\j_1,j_2,\cdots,j_n}\det B\\ &=\det A\det B. \end{aligned} \]

将类似的过程和结论予以推广,就得到Binet-Cauchy定理。

  • Binet-Cauchy定理:设\(A\in F^{p\times q}\)\(B\in F^{q\times p}\),则

    \[\det(AB)=\left\{\begin{array}{} 0,& q<p;\\ \det A\det B,& q=p;\\ \displaystyle{\sum_{1\le j_1<j_2<\cdots<j_p\le p}A\pmatrix{1,2,\cdots,p\\j_1,j_2,\cdots,j_p}B\pmatrix{j_1,j_2,\cdots,j_p\\1,2,\cdots,p}},& q>p. \end{array}\right. \]

    \(q<p\)时,\(AB\)的行向量组是

    \[\left\{\begin{array}{} \eta_1=a_{11}\xi_1+a_{12}\xi_2+\cdots +a_{1q}\xi_q,\\ \eta_2=a_{21}\xi_1+a_{22}\xi_2+\cdots+a_{2q}\xi_q,\\ \cdots\\ \eta_p=a_{p1}\xi_1+a_{p2}\xi_2+\cdots+a_{pq}\xi_q. \end{array}\right. \]

    可以证明存在某个\(\eta_{k+1}\),使得\(\eta_{k+1}\)可以被\(\eta_1,\cdots,\eta_{k-1}\)线性表示,即存在\(b_1,\cdots,b_{k}\)使

    \[\eta_{k+1}=b_1\eta_1+\cdots+b_{k}\eta_{k}, \]

    这等价于

    \[\left\{\begin{array}{} a_{11}b_1+a_{21}b_2+\cdots+a_{k1}b_k=a_{k+1,1} \\ a_{12}b_1+a_{22}b_2+\cdots+a_{k2}b_k=a_{k+1,2} \\ \cdots \\ a_{1q}b_1+a_{2q}b_2+\cdots+a_{kq}b_k=a_{k+1,q}. \end{array}\right. \]

    \(k\)充分大时未知量个数\(k\)超过方程个数\(q\),所以方程必定有解,于是\(\det(AB)=0\)

    \(q>p\)时,\(\xi_j\)\(p\)维向量,\(i=1,\cdots,p\),此时

    \[\det C=\det\left(\sum_{j=1}^{q}a_{1j}\xi_j,\sum_{j=1}^{p}a_{2j}\xi_j,\cdots,\sum_{j=1}^{p}a_{pj}\xi_j \right), \]

    将这个矩阵展开,能得到\(A_{p}^{q}\)个不重复的项,即

    \[\det C=\sum_{1\le j_1,j_2,\cdots,j_p\le n\\j_1\ne j_2\ne \cdots\ne j_p}a_{1j_1}\cdots a_{pj_p}\det(\xi_{j_1},\xi_{j_2},\cdots,\xi_{j_n}). \]

    对于\(n\)个数中每一组选择出的\(p\)个数\(j_1<j_2<\cdots<j_p\),含有它们的项的和为

    \[\sum_{1\le i_1<\cdots<i_p\le p} a_{j_1i_1}a_{j_2i_2}\cdots a_{j_pi_p}\delta\pmatrix{1,2,\cdots,p\\i_1,i_2,\cdots,i_p}\det(\xi_{j_1},\xi_{j_2},\cdots,\xi_{j_p}), \]

    左边的部分即\(A\pmatrix{1,2,\cdots,p\\j_1,j_2\cdots,j_p}\),所以

    \[\det (AB)=\sum_{1\le j_1<j_2<\cdots<j_p}A\pmatrix{1,2,\cdots,p\\j_1,j_2,\cdots,j_p}B\pmatrix{j_1,j_2,\cdots,j_p\\1,2,\cdots,p}. \]

为方便记忆,可以将\(q>p\)时的Binet-Cauchy公式记作

\[\det(AB)=\sum _{S}\det (A_{S})\det (B_S), \]

\(S\)\(A,B\)的最大子式规模。

下面给出一些Binet-Cauchy公式的应用。

  1. 求轮回方阵的行列式:

    \[A=\begin{pmatrix} a_0 & a_1 & a_2 & \cdots & a_{n-1} \\ a_{n-1} & a_0 & a_1 & \cdots & a_{n-2} \\ a_{n-2} & a_{n-1} & a_0 & \cdots & a_{n-3} \\ \vdots & \vdots & \vdots & & \vdots \\ a_1 & a_2 & a_3 & \cdots & a_{0} \end{pmatrix}. \]

    \(\omega\in\mathbb{C}\)满足\(\omega^{n}=1\),但对\(i=1,\cdots,n-1\)都有\(\omega^{i}\ne 1\)。设\(f(x)=a_0+a_1x+\cdots+a_{n-1}x^{n-1}\),令Vandermonde行列式

    \[B=\begin{pmatrix} 1 & 1 & 1 & \cdots & 1\\ 1 & \omega & \omega^2 &\cdots & \omega^{n-1} \\ 1 & \omega^2 & \omega^4 & \cdots & \omega^{2(n-1)} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & \omega^{n-1} & \omega^{2(n-1)} & \cdots & \omega^{(n-1)^2} \end{pmatrix}. \]

    于是

    \[AB=B\mathrm{diag}(f(1),f(\omega),f(\omega^2),\cdots,f(\omega^{n-1})). \]

    因此

    \[\det A=\prod_{i=0}^{n-1}f(\omega^{i}). \]
  2. 证明Cauchy不等式:当\(a_i,b_i\)为实数时,

    \[(a_1b_1+a_2b_2+\cdots+a_nb_n)^{2}\le (a_1^2+a_2^2+\cdots+a_n^2)(b_1^2+b_2^2+\cdots+b_n^2). \]

    \[A=\begin{pmatrix} a_1 & a_2 & \cdots &a_n \\ b_1 & b_2 & \cdots & b_n \end{pmatrix}, \]

    \[AA^{\intercal}=\begin{pmatrix} \displaystyle{\sum_{i=1}^{n}a_i^2} & \displaystyle{\sum_{i=1}^{n}a_ib_i} \\ \displaystyle{\sum_{i=1}^{n}a_ib_i} & \displaystyle{\sum_{i=1}^{n}b_i^2} \end{pmatrix}. \]

    \(\det(AA^{\intercal})=\displaystyle{\left(\sum_{i=1}^{n}a_i^2\right)\left(\sum_{i=1}^{n}b_i^2 \right)-\left(\sum_{i=1}^{n}a_ib_i \right)^2}\)。另一方面,由Binet-Cauchy公式有

    \[\det (AA^{\intercal})=\sum_{1\le i<j\le n}A\pmatrix{1,2\\i,j}^2\ge 0, \]

    故Cauchy不等式得证。为使不等式的等号成立,需要每一个\(A\pmatrix{1,2\\i,j}=0\),即

    \[\frac{a_1}{b_1}=\cdots=\frac{a_n}{b_n}. \]