高斯-馬可夫定理

高斯-馬可夫定理（英語：Gauss-Markov Theorem），在統計學中陳述的是在線性迴歸模型中，如果線性模型滿足高斯馬可夫假定，則迴歸係數的「最佳線性不偏估計」（BLUE，英語：Best Linear unbiased estimator）就是普通最小平方法估計。^[1]最佳估計是指相較於其他估計量有更小變異數的估計量，同時把對估計量的尋找限制在所有可能的線性不偏估計量中。此外，誤差也不一定需要滿足獨立同分布或常態分布。

本定理主要以卡爾·弗里德里希·高斯和安德烈·馬可夫命名，雖然高斯的貢獻要遠比馬可夫的重要。高斯以獨立常態分布的假設推導出了結果，而馬可夫將假設放寬到了上述的形式。

表述

簡單（一元）線性迴歸模型

對於簡單（一元）線性迴歸模型，

y=\beta _{0}+\beta _{1}x+\varepsilon

其中 $\beta _{0}$ 和 $\beta _{1}$ 是非隨機但不能觀測到的母數， $x_{i}$ 是非隨機且可觀測到的一般變量， $\varepsilon _{i}$ 是不可觀測的隨機變數，或稱為隨機誤差或噪音， $y_{i}$ 是可觀測的隨機變數。

高斯-馬可夫定理的假設條件是：

在母體模型中，各變量關係為 $y=\beta _{0}+\beta _{1}x+\varepsilon$ (線性於母數)
我們具有服從於上述模型的隨機樣本，樣本容量為n（隨機抽樣），
x的樣本結果為非完全相同的數值（解釋變量的樣本有波動），
對於給定的解釋變量，誤差的期望值為零，換言之 ${\rm {E}}\left(\varepsilon |x\right)=0$ （零條件均值），
對於給定的解釋變量，誤差具有相同的變異數，換言之 ${\rm {Var}}\left(\varepsilon |x\right)=\sigma ^{2}$ （同變異數性）。

則對 $\beta _{0}$ 和 $\beta _{1}$ 的最佳線性不偏估計為，

{\hat {\beta }}_{1}={\frac {\sum {x_{i}y_{i}}-{\frac {1}{n}}\sum {x_{i}}\sum {y_{i}}}{\sum {x_{i}^{2}}-{\frac {1}{n}}(\sum {x_{i}})^{2}}}={\frac {\widehat {{\text{Cov}}\left(x,y\right)}}{{\hat {\sigma _{x}}}^{2}}}={\hat {\rho }}_{xy}{\frac {\hat {\sigma _{x}}}{\hat {\sigma _{y}}}},\quad {\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}\,{\overline {x}}\ .

多元線性迴歸模型

對於多元線性迴歸模型，

y_{i}=\sum _{j=0}^{p}\beta _{j}x_{ij}+\varepsilon _{i}

,

x_{i0}=1;\quad i=1,\dots n.

使用矩陣形式，線性迴歸模型可簡化記為 $\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ ，其中採用了以下記號：

$\mathbf {Y} =(y_{1},y_{2},\dots ,y_{n})^{T}$ (觀測值向量，Vector of Responses),

$\mathbf {X} =(x_{ij})={\begin{bmatrix}1&x_{11}&x_{12}&\cdots &x_{1p}\\1&x_{21}&x_{22}&\cdots &x_{2p}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&x_{n2}&\cdots &x_{np}\end{bmatrix}}$ (設計矩陣，Design Matrix),

${\boldsymbol {\beta }}=(\beta _{0},\beta _{1},\dots ,\beta _{p})^{T}$ (母數向量，Vector of Parameters),

${\boldsymbol {\varepsilon }}=(\varepsilon _{1},\varepsilon _{2},\dots ,\varepsilon _{n})^{T}$ (隨機誤差向量，Vectors of Error)。

高斯-馬可夫定理的假設條件是：

${\rm {E}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)=0$ ， $\forall \mathbf {X}$ （零均值），
${\rm {Var}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)={\rm {E}}\left({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{T}\mid \mathbf {X} \right)=\sigma _{\varepsilon }^{2}\mathbf {I_{n}}$ ，（同變異數且獨立），其中 $\mathbf {I_{n}}$ 為n階單位矩陣(Identity Matrix)。

則對 ${\boldsymbol {\beta }}$ 的最佳線性不偏估計為

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{T}\mathbf {X} )^{-1}\mathbf {X} ^{T}\mathbf {Y}

證明

首先，注意的是這裡數據是 $\mathbf {Y}$ 而非 $\mathbf {X}$ ，我們希望找到 ${\boldsymbol {\beta }}$ 對於 $\mathbf {Y}$ 的線性估計量，記作

{\hat {\boldsymbol {\beta }}}=\mathbf {M} +\mathbf {N} \mathbf {Y}

其中 ${\hat {\boldsymbol {\beta }}}$ ， $\mathbf {M}$ ， $\mathbf {N}$ 和 $\mathbf {Y}$ 分別是 $(p+1)\times 1$ ， $(p+1)\times 1$ ， $(p+1)\times n$ 和 $n\times 1$ 矩陣。