穆尔-彭罗斯广义逆

穆尔-彭罗斯广义逆（英语：Moore–Penrose pseudoinverse），通常标记为 $A^{\dagger }$ 或 $A^{+}$ ，是著名的广义逆矩阵之一。

1903年，埃里克·伊瓦尔·弗雷德霍姆提出积分算子的伪逆的概念。穆尔-彭罗斯广义逆先后被E·H·穆尔（1920年）^[1]、阿尔内·比耶哈马尔（英语：Arne Bjerhammar）（1951年） ^[2]、罗杰·彭罗斯（1955年）^[3]发现或描述。

它常被用于求得或简化非一致线性方程组的最小范数最小二乘解（最小二乘法）。

矩阵的穆尔-彭罗斯广义逆在实数域和复数域上都是唯一的，并且可以通过奇异值分解求得。

定义

定义一

令P_S表示到向量空间S上的正交投影。对于任意一个m乘n的复矩阵A，设R(A)表示A的值域空间。穆尔于1935年证明矩阵A的广义逆矩阵G必须满足的条件：

${\boldsymbol {AG}}={\boldsymbol {P}}_{R({\boldsymbol {A}})},{\boldsymbol {GA}}={\boldsymbol {P}}_{R({\boldsymbol {A_{H}}})}$

以上两个条件称为穆尔条件。满足穆尔条件的矩阵G称为矩阵A的穆尔逆矩阵。

定义二

彭罗斯于1955年提出了定义广义逆矩阵的另外一组条件^[3]：

${\boldsymbol {AGA}}={\boldsymbol {A}}$ ， ${\boldsymbol {AG}}$ 不一定是单位矩阵，但却不会改变 ${\boldsymbol {A}}$ 的列向量。
${\boldsymbol {GAG}}={\boldsymbol {G}}$ ， ${\boldsymbol {G}}$ 是乘法半群的弱逆
$({\boldsymbol {AG}})^{\boldsymbol {H}}={\boldsymbol {AG}}$ ， ${\boldsymbol {AG}}$ 是埃尔米特矩阵
$({\boldsymbol {GA}})^{\boldsymbol {H}}={\boldsymbol {GA}}$ ， ${\boldsymbol {GA}}$ 也是埃尔米特矩阵

以上四个条件常称穆尔-彭罗斯条件。满足全部四个条件的矩阵G，就称为A的穆尔-彭罗斯广义逆矩阵。

性质

从穆尔-彭罗斯条件出发，彭罗斯推导出了穆尔-彭罗斯广义逆的一些性质^[3]：

$({\boldsymbol {A}}^{H})^{\dagger }=({\boldsymbol {A}}^{\dagger })^{H}$
${\boldsymbol {A}}^{\dagger }{\boldsymbol {A}}{\boldsymbol {A}}^{H}={\boldsymbol {A}}^{H}{\boldsymbol {A}}{\boldsymbol {A}}^{\dagger }={\boldsymbol {A}}^{H}$
${\boldsymbol {A}}{\boldsymbol {A}}^{H}({\boldsymbol {A}}^{H})^{\dagger }=({\boldsymbol {A}}^{H})^{\dagger }{\boldsymbol {A}}^{H}{\boldsymbol {A}}={\boldsymbol {A}}$
${\boldsymbol {A}}^{\dagger }{\boldsymbol {A}}$ ， ${\boldsymbol {A}}{\boldsymbol {A}}^{\dagger }$ ， $({\boldsymbol {I}}-{\boldsymbol {A}}^{\dagger }{\boldsymbol {A}})$ 和 $({\boldsymbol {I}}-{\boldsymbol {A}}^{\dagger }{\boldsymbol {A}})$ 都是幂等矩阵。

存在性和唯一性

伪逆存在且唯一：对于任何矩阵 $A$ ，恰好有一个矩阵 $A^{\dagger }$ 满足定义的四个性质。^[4]

满足该定义的第一个条件的矩阵被称为广义逆。如果该矩阵也满足第二个定义，它就被称为广义反身逆阵（generalized reflexive inverse）。广义逆矩阵总存在，但一般不唯一。唯一性是最后两个条件的结果。

基本性质

这些性质的证明可以在维基教科书中找到。

如果 $A$ 有实数项，那么 $A^{\dagger }$ 也有。
如果 $A$ 是可逆的，它的伪逆就是它的逆矩阵，即： $A^{\dagger }=A^{-1}$ .^[5]^:243
零矩阵的伪逆是它的转置。
矩阵伪逆的伪逆是原矩阵，即： $\left(A^{\dagger }\right)^{\dagger }=A$ .^[5]^:245
伪转置与转置、复共轭和共轭转置可以交换：^[5]^:245
$\left(A^{\textsf {T}}\right)^{\dagger }=\left(A^{\dagger }\right)^{\textsf {T}}$ , $\left({\overline {A}}\right)^{\dagger }={\overline {A^{\dagger }}}$ , $\left(A^{*}\right)^{\dagger }=\left(A^{\dagger }\right)^{*}$ .
矩阵 $A$ 的标量乘法的伪逆是 $A^{\dagger }$ 的标量的倒数的乘法：
$\left(\alpha A\right)^{\dagger }=\alpha ^{-1}A^{\dagger }$ 对于 $\alpha \neq 0$ .

恒等式

下面的恒等式可以用来判定部分涉及伪逆的子表达式的正确性： $A={}A{}A^{*}{}A^{\dagger *}{}={}A^{\dagger *}{}A^{*}{}A$ 同样的，将 $A^{\dagger }$ 替换为 $A$ 会得到： $A^{\dagger }={}A^{\dagger }{}A^{\dagger *}{}A^{*}{}={}A^{*}{}A^{\dagger *}{}A^{\dagger }$ 当用 $A^{*}$ 替代 $A$ 时，会得到： $A^{*}={}A^{*}{}A{}A^{+}{}={}A^{+}{}A{}A^{*}.$

埃尔米特情况

伪逆的计算可以简化为其在埃尔米特情况下的构造，这可以通过等价关系实现： $A^{+}=\left(A^{*}A\right)^{+}A^{*},$ $A^{+}=A^{*}\left(AA^{*}\right)^{+},$ 其中 $A^{*}A$ 和 $AA^{*}$ 是埃尔米特矩阵。

乘积

令 $A\in \mathbb {k} ^{m\times n},\ B\in \mathbb {k} ^{n\times p}$ ，下列等式等价：^[6]

$(AB)^{\dagger }=B^{\dagger }A^{\dagger }$
${\textstyle {\begin{aligned}A^{\dagger }ABB^{*}A^{*}&=BB^{*}A^{*},\\BB^{\dagger }A^{*}AB&=A^{*}AB.\end{aligned}}}$
${\begin{aligned}\left(A^{\dagger }ABB^{*}\right)^{*}&=A^{\dagger }ABB^{*},\\\left(A^{*}ABB^{\dagger }\right)^{*}&=A^{*}ABB^{\dagger }.\end{aligned}}$
$A^{\dagger }ABB^{*}A^{*}ABB^{\dagger }=BB^{*}A^{*}A$
${\begin{aligned}A^{\dagger }AB&=B(AB)^{\dagger }AB,\\BB^{\dagger }A^{*}&=A^{*}AB(AB)^{\dagger }.\end{aligned}}$

下方列出了 $(AB)^{+}=B^{+}A^{+}$ 的充分条件：

$A$ 的列单位正交（此时 $A^{*}A=A^{\dagger }A=I_{n}$ ），或
$B$ 的行单位正交（此时 $BB^{*}=BB^{\dagger }=I_{n}$ ），或
$A$ 的列线性无关（此时 $A^{\dagger }A=I$ ）同时 $B$ 的行线性无关（此时 $BB^{\dagger }=I$ ），或
$B=A^{*}$ ，或
$B=A^{\dagger }$ 。

下方列出了 $(AB)^{\dagger }=B^{\dagger }A^{\dagger }$ 的必要条件：

$(A^{\dagger }A)(BB^{\dagger })=(BB^{\dagger })(A^{\dagger }A)$

由最后一个充分条件得出等式： ${\begin{aligned}\left(AA^{*}\right)^{+}&=A^{+*}A^{+},\\\left(A^{*}A\right)^{+}&=A^{+}A^{+*}.\end{aligned}}$ 注意: 等式 $(AB)^{\dagger }=B^{\dagger }A^{\dagger }$ 一般不成立，例如： ${\Biggl (}{\begin{pmatrix}1&1\\0&0\end{pmatrix}}{\begin{pmatrix}0&0\\1&1\end{pmatrix}}{\Biggr )}^{+}={\begin{pmatrix}1&1\\0&0\end{pmatrix}}^{+}={\begin{pmatrix}{\tfrac {1}{2}}&0\\{\tfrac {1}{2}}&0\end{pmatrix}}\quad \neq \quad {\begin{pmatrix}{\tfrac {1}{4}}&0\\{\tfrac {1}{4}}&0\end{pmatrix}}={\begin{pmatrix}0&{\tfrac {1}{2}}\\0&{\tfrac {1}{2}}\end{pmatrix}}{\begin{pmatrix}{\tfrac {1}{2}}&0\\{\tfrac {1}{2}}&0\end{pmatrix}}={\begin{pmatrix}0&0\\1&1\end{pmatrix}}^{+}{\begin{pmatrix}1&1\\0&0\end{pmatrix}}^{+}$

投影

$P=AA^{\dagger }$ 和 $Q=A^{\dagger }A$ 是正交投影算子，即它们是埃尔米特矩阵（ $P=P^{*}$ ， $Q=Q^{*}$ ）和幂等矩阵（ $P^{2}=P$ ， $Q^{2}=Q$ ）。以下性质成立：

$PA=AQ=A$ ， $A^{\dagger }P=QA^{\dagger }=A^{\dagger }$
$P$ 是正交投影算子，投影到 $A$ 的值域（也就是 $A^{*}$ 的核的正交补空间）。
$Q$ 是正交投影算子，投影到 $A^{*}$ 的值域（也就是 $A$ 的核的正交补空间）。
$(I-Q)=\left(I-A^{\dagger }A\right)$ 是正交投影算子，投影到 $A$ 的核。
$(I-P)=\left(I-AA^{\dagger }\right)$ 是正交投影算子，投影到 $A^{*}$ 的核。^[4]

最后两条性质隐含了下列等式：

$A\,\ \left(I-A^{\dagger }A\right)=\left(I-AA^{\dagger }\right)A\ \ =0$
$A^{*}\left(I-AA^{\dagger }\right)=\left(I-A^{\dagger }A\right)A^{*}=0$

如果 $A\in \mathbb {k} ^{n\times n}$ 是埃尔米特矩阵和幂等矩阵（当且仅当它为正交投影矩阵），则对于任意矩阵 $B\in \mathbb {k} ^{m\times n}$ ，下式成立：^[7] $A(BA)^{\dagger }=(BA)^{\dagger }$ 这一条性质可以如此证明：定义矩阵 $C=BA$ , $D=A(BA)^{\dagger }$ ，当 $A$ 是埃尔米特矩阵和幂等矩阵时，通过验证伪逆的性质可以检查 $D$ 确实是 $C$ 的一个伪逆。从上一条性质可以看出，当 $A\in \mathbb {k} ^{n\times n}$ 是埃尔米特矩阵和幂等矩阵时，对于任意矩阵 $B\in \mathbb {k} ^{n\times m}$

$(AB)^{\dagger }A=(AB)^{\dagger }$

当 $A$ 是一个正交投影矩阵，则它的伪逆就是它自身，即 $A^{\dagger }=A$ 。

几何结构

如果我们把矩阵看作是一个在数域 $\mathbb {k}$ 上的线性映射 $A:\mathbb {k} ^{n}\to \mathbb {k} ^{m}$ ，那么 $A^{\dagger }:\mathbb {k} ^{m}\to \mathbb {k} ^{n}$ 可以被分解如下。首先定义符号： $\oplus$ 表示直和， $\perp$ 表示正交补， $\ker$ 表示映射的核， $\operatorname {ran}$ 表示映射的像。注意 $\mathbb {k} ^{n}=\left(\ker A\right)^{\perp }\oplus \ker A$ 和 $\mathbb {k} ^{m}=\operatorname {ran} A\oplus \left(\operatorname {ran} A\right)^{\perp }$ 。限制条件 $A:\left(\ker A\right)^{\perp }\to \operatorname {ran} A$ 则是一个同构。这意味着 $A^{\dagger }$ 在 $\operatorname {ran} A$ 上时这个同构的逆，在 $\left(\operatorname {ran} A\right)^{\perp }$ 上则是零。

换而言之，对于给定的 $b\in \mathbb {k} ^{m}$ 要找到 $A^{\dagger }b$ ，首先将 $b$ 正交投影在 $A$ 的值域中，找到点 $p(b)$ ，然后构建 $A^{-1}(\{p(b)\})$ ，即就是在 $\mathbb {k} ^{n}$ 中，会被 $A$ 投影到 $p(b)$ 的点。这是 $\mathbb {k} ^{n}$ 的一个平行于 $A$ 的核的仿射子空间。这个子空间中长度最小的元素（也就是最靠近原点的元素），就是我们寻找的 $A^{+}b$ 的解。它可以通过从 $A^{-1}(\{p(b)\})$ 中选择任意元素，并将其投影在 $A$ 的核的正交补空间而得到。

以上描述与线性系统的最小范数解密切相关。

子空间

${\begin{aligned}\ker \left(A^{+}\right)&=\ker \left(A^{*}\right)\\\operatorname {ran} \left(A^{+}\right)&=\operatorname {ran} \left(A^{*}\right)\end{aligned}}$

极限

伪逆可以由极限定义： $A^{\dagger }=\lim _{\delta \searrow 0}\left(A^{*}A+\delta I\right)^{-1}A^{*}=\lim _{\delta \searrow 0}A^{*}\left(AA^{*}+\delta I\right)^{-1}$ （参见吉洪诺夫正则化）。当 $\left(AA^{*}\right)^{-1}$ 或 $\left(A^{*}A\right)^{-1}$ 不存在时，这些极限仍然存在。^[4]^:263

连续性

与一般的矩阵求逆不同，求伪逆的过程并不连续：如果序列 $\left(A_{n}\right)$ 收敛到矩阵 $A$ （在最大范数或弗罗贝尼乌斯范数意义下），则 $(A_{n})^{\dagger }$ 不一定收敛于 $A^{\dagger }$ . 然而，如果所有的矩阵 $A_{n}$ 与 $A$ 有相同的秩，则 $(A_{n})^{\dagger }$ 将收敛于 $A^{\dagger }$ .^[8]

导数关系

实值伪逆矩阵的导数，该矩阵在某点 $x$ 处具有恒定的秩可以用原矩阵的导数来计算：^[9] ${\frac {\mathrm {d} }{\mathrm {d} x}}A^{\dagger }(x)=-A^{\dagger }\left({\frac {\mathrm {d} }{\mathrm {d} x}}A\right)A^{\dagger }~+~A^{\dagger }A^{\dagger {\textsf {T}}}\left({\frac {\mathrm {d} }{\mathrm {d} x}}A^{\textsf {T}}\right)\left(I-AA^{\dagger }\right)~+~\left(I-A^{\dagger }A\right)\left({\frac {\text{d}}{{\text{d}}x}}A^{\textsf {T}}\right)A^{\dagger {\textsf {T}}}A^{\dagger }$

例子

对于可逆矩阵，其广义逆为其一般的逆矩阵，所以以下仅举一些不可逆矩阵的例子。

对于 $A={\begin{pmatrix}0&0\\0&0\end{pmatrix}}$ ，其广义逆矩阵为 $A^{\dagger }={\begin{pmatrix}0&0\\0&0\end{pmatrix}}$ （通常零矩阵的广义逆矩阵为其转置）。该广义逆矩阵的唯一性可以认为时由性质 $A^{\dagger }=A^{\dagger }AA^{\dagger }$ 得出的，因为与零矩阵相乘总会得到零矩阵。
对于 $A={\begin{pmatrix}1&0\\1&0\end{pmatrix}}$ ，其广义逆矩阵为 $A^{\dagger }={\begin{pmatrix}{\frac {1}{2}}&{\frac {1}{2}}\\0&0\end{pmatrix}}$ 。
- 事实上， $A\,A^{\dagger }={\begin{pmatrix}{\frac {1}{2}}&{\frac {1}{2}}\\{\frac {1}{2}}&{\frac {1}{2}}\end{pmatrix}}$ ，所以 $A\,A^{\dagger }A={\begin{pmatrix}1&0\\1&0\end{pmatrix}}=A$ 。
- 类似的， $A^{\dagger }A={\begin{pmatrix}1&0\\0&0\end{pmatrix}}$ ，由此 $A^{\dagger }A\,A^{\dagger }={\begin{pmatrix}{\frac {1}{2}}&{\frac {1}{2}}\\0&0\end{pmatrix}}=A^{\dagger }$ 。
对于 $A={\begin{pmatrix}1&0\\-1&0\end{pmatrix}}$ ，其广义逆矩阵为 $A^{\dagger }={\begin{pmatrix}{\frac {1}{2}}&-{\frac {1}{2}}\\0&0\end{pmatrix}}$ 。
对于 $A={\begin{pmatrix}1&0\\-1&0\end{pmatrix}}$ ，其广义逆矩阵为 $A^{\dagger }={\begin{pmatrix}{\frac {1}{2}}&-{\frac {1}{2}}\\0&0\end{pmatrix}}$ 。
对于 $A={\begin{pmatrix}1&1\\1&1\end{pmatrix}}$ ，其广义逆矩阵为 $A^{\dagger }={\begin{pmatrix}{\frac {1}{4}}&{\frac {1}{4}}\\{\frac {1}{4}}&{\frac {1}{4}}\end{pmatrix}}$ 。
对于 $A={\begin{pmatrix}1&0\\0&1\\0&1\end{pmatrix}}$ ，其广义逆矩阵为 $A^{\dagger }={\begin{pmatrix}1&0&0\\0&{\frac {1}{2}}&{\frac {1}{2}}\end{pmatrix}}$ 。对于该矩阵，其左逆存在且等于 $A^{\dagger }$ ，事实上， $A^{\dagger }A={\begin{pmatrix}1&0\\0&1\end{pmatrix}}$ 。