高斯-马尔可夫定理

高斯-马尔可夫定理（英语：Gauss-Markov Theorem），在统计学中陈述的是在线性回归模型中，如果线性模型满足高斯马尔可夫假定，则回归系数的“最佳线性无偏估计”（BLUE，英语：Best Linear unbiased estimator）就是普通最小二乘法估计。^[1]最佳估计是指相较于其他估计量有更小方差的估计量，同时把对估计量的寻找限制在所有可能的线性无偏估计量中。此外，误差也不一定需要满足独立同分布或正态分布。

本定理主要以卡尔·弗里德里希·高斯和安德烈·马尔可夫命名，虽然高斯的贡献要远比马尔可夫的重要。高斯以独立正态分布的假设推导出了结果，而马尔可夫将假设放宽到了上述的形式。

表述

简单（一元）线性回归模型

对于简单（一元）线性回归模型，

y=\beta _{0}+\beta _{1}x+\varepsilon

其中 $\beta _{0}$ 和 $\beta _{1}$ 是非随机但不能观测到的参数， $x_{i}$ 是非随机且可观测到的一般变量， $\varepsilon _{i}$ 是不可观测的随机变量，或称为随机误差或噪音， $y_{i}$ 是可观测的随机变量。

高斯-马尔可夫定理的假设条件是：

在总体模型中，各变量关系为 $y=\beta _{0}+\beta _{1}x+\varepsilon$ (线性于参数)
我们具有服从于上述模型的随机样本，样本容量为n（随机抽样），
x的样本结果为非完全相同的数值（解释变量的样本有波动），
对于给定的解释变量，误差的期望为零，换言之 ${\rm {E}}\left(\varepsilon |x\right)=0$ （零条件均值），
对于给定的解释变量，误差具有相同的方差，换言之 ${\rm {Var}}\left(\varepsilon |x\right)=\sigma ^{2}$ （同方差性）。

则对 $\beta _{0}$ 和 $\beta _{1}$ 的最佳线性无偏估计为，

{\hat {\beta }}_{1}={\frac {\sum {x_{i}y_{i}}-{\frac {1}{n}}\sum {x_{i}}\sum {y_{i}}}{\sum {x_{i}^{2}}-{\frac {1}{n}}(\sum {x_{i}})^{2}}}={\frac {\widehat {{\text{Cov}}\left(x,y\right)}}{{\hat {\sigma _{x}}}^{2}}}={\hat {\rho }}_{xy}{\frac {\hat {\sigma _{x}}}{\hat {\sigma _{y}}}},\quad {\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}\,{\overline {x}}\ .

多元线性回归模型

对于多元线性回归模型，

y_{i}=\sum _{j=0}^{p}\beta _{j}x_{ij}+\varepsilon _{i}

,

x_{i0}=1;\quad i=1,\dots n.

使用矩阵形式，线性回归模型可简化记为 $\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ ，其中采用了以下记号：

$\mathbf {Y} =(y_{1},y_{2},\dots ,y_{n})^{T}$ (观测值向量，Vector of Responses),

$\mathbf {X} =(x_{ij})={\begin{bmatrix}1&x_{11}&x_{12}&\cdots &x_{1p}\\1&x_{21}&x_{22}&\cdots &x_{2p}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&x_{n2}&\cdots &x_{np}\end{bmatrix}}$ (设计矩阵，Design Matrix),

${\boldsymbol {\beta }}=(\beta _{0},\beta _{1},\dots ,\beta _{p})^{T}$ (参数向量，Vector of Parameters),

${\boldsymbol {\varepsilon }}=(\varepsilon _{1},\varepsilon _{2},\dots ,\varepsilon _{n})^{T}$ (随机误差向量，Vectors of Error)。

高斯-马尔可夫定理的假设条件是：

${\rm {E}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)=0$ ， $\forall \mathbf {X}$ （零均值），
${\rm {Var}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)={\rm {E}}\left({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{T}\mid \mathbf {X} \right)=\sigma _{\varepsilon }^{2}\mathbf {I_{n}}$ ，（同方差且不相关），其中 $\mathbf {I_{n}}$ 为n阶单位矩阵(Identity Matrix)。

则对 ${\boldsymbol {\beta }}$ 的最佳线性无偏估计为

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{T}\mathbf {X} )^{-1}\mathbf {X} ^{T}\mathbf {Y}

证明

首先，注意的是这里数据是 $\mathbf {Y}$ 而非 $\mathbf {X}$ ，我们希望找到 ${\boldsymbol {\beta }}$ 对于 $\mathbf {Y}$ 的线性估计量，记作

{\hat {\boldsymbol {\beta }}}=\mathbf {M} +\mathbf {N} \mathbf {Y}

其中 ${\hat {\boldsymbol {\beta }}}$ ， $\mathbf {M}$ ， $\mathbf {N}$ 和 $\mathbf {Y}$ 分别是 $(p+1)\times 1$ ， $(p+1)\times 1$ ， $(p+1)\times n$ 和 $n\times 1$ 矩阵。