高斯-馬可夫定理 (英語:Gauss-Markov Theorem ),在統計學 中陳述的是在線性回歸 模型中,如果線性模型滿足高斯馬爾可夫假定,則回歸係數的「最佳線性無偏 估計 」(BLUE,英語:Best Linear unbiased estimator )就是普通最小二乘法估計 。[ 1] 最佳估計是指相較於其他估計量有更小方差 的估計量 ,同時把對估計量的尋找限制在所有可能的線性無偏估計量中。此外,誤差也不一定需要滿足獨立同分布 或正態分布 。
本定理主要以卡爾·弗里德里希·高斯 和安德烈·馬爾可夫 命名,雖然高斯的貢獻要遠比馬爾可夫的重要。高斯以獨立正態分布的假設推導出了結果,而馬爾可夫將假設放寬到了上述的形式。
對於簡單(一元)線性回歸模型,
y
=
β
0
+
β
1
x
+
ε
{\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon }
其中
β
0
{\displaystyle \beta _{0}}
和
β
1
{\displaystyle \beta _{1}}
是非隨機 但不能觀測到的參數,
x
i
{\displaystyle x_{i}}
是非隨機 且可觀測到的一般變量,
ε
i
{\displaystyle \varepsilon _{i}}
是不可觀測 的隨機變量,或稱為隨機誤差或噪音,
y
i
{\displaystyle y_{i}}
是可觀測 的隨機變量。
高斯-馬爾可夫定理的假設條件 是:
在總體模型中,各變量關係為
y
=
β
0
+
β
1
x
+
ε
{\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon }
(線性於參數)
我們具有服從於上述模型的隨機樣本,樣本容量為n(隨機抽樣),
x的樣本結果為非完全相同的數值(解釋變量的樣本有波動),
對於給定的解釋變量,誤差的期望為零,換言之
E
(
ε
|
x
)
=
0
{\displaystyle {\rm {E}}\left(\varepsilon |x\right)=0}
(零條件均值),
對於給定的解釋變量,誤差具有相同的方差,換言之
V
a
r
(
ε
|
x
)
=
σ
2
{\displaystyle {\rm {Var}}\left(\varepsilon |x\right)=\sigma ^{2}}
(同方差性)。
則對
β
0
{\displaystyle \beta _{0}}
和
β
1
{\displaystyle \beta _{1}}
的最佳線性無偏估計為,
β
^
1
=
∑
x
i
y
i
−
1
n
∑
x
i
∑
y
i
∑
x
i
2
−
1
n
(
∑
x
i
)
2
=
Cov
(
x
,
y
)
^
σ
x
^
2
=
ρ
^
x
y
σ
x
^
σ
y
^
,
β
^
0
=
y
¯
−
β
^
1
x
¯
.
{\displaystyle {\hat {\beta }}_{1}={\frac {\sum {x_{i}y_{i}}-{\frac {1}{n}}\sum {x_{i}}\sum {y_{i}}}{\sum {x_{i}^{2}}-{\frac {1}{n}}(\sum {x_{i}})^{2}}}={\frac {\widehat {{\text{Cov}}\left(x,y\right)}}{{\hat {\sigma _{x}}}^{2}}}={\hat {\rho }}_{xy}{\frac {\hat {\sigma _{x}}}{\hat {\sigma _{y}}}},\quad {\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}\,{\overline {x}}\ .}
對於多元線性回歸模型,
y
i
=
∑
j
=
0
p
β
j
x
i
j
+
ε
i
{\displaystyle y_{i}=\sum _{j=0}^{p}\beta _{j}x_{ij}+\varepsilon _{i}}
,
x
i
0
=
1
;
i
=
1
,
…
n
.
{\displaystyle x_{i0}=1;\quad i=1,\dots n.}
使用矩陣形式,線性回歸模型可簡化記為
Y
=
X
β
+
ε
{\displaystyle \mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}
,其中採用了以下記號:
Y
=
(
y
1
,
y
2
,
…
,
y
n
)
T
{\displaystyle \mathbf {Y} =(y_{1},y_{2},\dots ,y_{n})^{T}}
(觀測值向量,Vector of Responses),
X
=
(
x
i
j
)
=
[
1
x
11
x
12
⋯
x
1
p
1
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
⋱
⋮
1
x
n
1
x
n
2
⋯
x
n
p
]
{\displaystyle \mathbf {X} =(x_{ij})={\begin{bmatrix}1&x_{11}&x_{12}&\cdots &x_{1p}\\1&x_{21}&x_{22}&\cdots &x_{2p}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&x_{n2}&\cdots &x_{np}\end{bmatrix}}}
(設計矩陣,Design Matrix),
β
=
(
β
0
,
β
1
,
…
,
β
p
)
T
{\displaystyle {\boldsymbol {\beta }}=(\beta _{0},\beta _{1},\dots ,\beta _{p})^{T}}
(參數向量,Vector of Parameters),
ε
=
(
ε
1
,
ε
2
,
…
,
ε
n
)
T
{\displaystyle {\boldsymbol {\varepsilon }}=(\varepsilon _{1},\varepsilon _{2},\dots ,\varepsilon _{n})^{T}}
(隨機誤差向量,Vectors of Error)。
高斯-馬爾可夫定理的假設條件 是:
E
(
ε
∣
X
)
=
0
{\displaystyle {\rm {E}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)=0}
,
∀
X
{\displaystyle \forall \mathbf {X} }
(零均值),
V
a
r
(
ε
∣
X
)
=
E
(
ε
ε
T
∣
X
)
=
σ
ε
2
I
n
{\displaystyle {\rm {Var}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)={\rm {E}}\left({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{T}\mid \mathbf {X} \right)=\sigma _{\varepsilon }^{2}\mathbf {I_{n}} }
,(同方差且不相關),其中
I
n
{\displaystyle \mathbf {I_{n}} }
為n階單位矩陣 (Identity Matrix)。
則對
β
{\displaystyle {\boldsymbol {\beta }}}
的最佳線性無偏估計為
β
^
=
(
X
T
X
)
−
1
X
T
Y
{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{T}\mathbf {X} )^{-1}\mathbf {X} ^{T}\mathbf {Y} }