高斯-马可夫定理 (英语:Gauss-Markov Theorem ),在统计学 中陈述的是在线性回归 模型中,如果线性模型满足高斯马尔可夫假定,则回归系数的“最佳线性无偏 估计 ”(BLUE,英语:Best Linear unbiased estimator )就是普通最小二乘法估计 。[ 1] 最佳估计是指相较于其他估计量有更小方差 的估计量 ,同时把对估计量的寻找限制在所有可能的线性无偏估计量中。此外,误差也不一定需要满足独立同分布 或正态分布 。
本定理主要以卡尔·弗里德里希·高斯 和安德烈·马尔可夫 命名,虽然高斯的贡献要远比马尔可夫的重要。高斯以独立正态分布的假设推导出了结果,而马尔可夫将假设放宽到了上述的形式。
对于简单(一元)线性回归模型,
y
=
β
0
+
β
1
x
+
ε
{\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon }
其中
β
0
{\displaystyle \beta _{0}}
和
β
1
{\displaystyle \beta _{1}}
是非随机 但不能观测到的参数,
x
i
{\displaystyle x_{i}}
是非随机 且可观测到的一般变量,
ε
i
{\displaystyle \varepsilon _{i}}
是不可观测 的随机变量,或称为随机误差或噪音,
y
i
{\displaystyle y_{i}}
是可观测 的随机变量。
高斯-马尔可夫定理的假设条件 是:
在总体模型中,各变量关系为
y
=
β
0
+
β
1
x
+
ε
{\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon }
(线性于参数)
我们具有服从于上述模型的随机样本,样本容量为n(随机抽样),
x的样本结果为非完全相同的数值(解释变量的样本有波动),
对于给定的解释变量,误差的期望为零,换言之
E
(
ε
|
x
)
=
0
{\displaystyle {\rm {E}}\left(\varepsilon |x\right)=0}
(零条件均值),
对于给定的解释变量,误差具有相同的方差,换言之
V
a
r
(
ε
|
x
)
=
σ
2
{\displaystyle {\rm {Var}}\left(\varepsilon |x\right)=\sigma ^{2}}
(同方差性)。
则对
β
0
{\displaystyle \beta _{0}}
和
β
1
{\displaystyle \beta _{1}}
的最佳线性无偏估计为,
β
^
1
=
∑
x
i
y
i
−
1
n
∑
x
i
∑
y
i
∑
x
i
2
−
1
n
(
∑
x
i
)
2
=
Cov
(
x
,
y
)
^
σ
x
^
2
=
ρ
^
x
y
σ
x
^
σ
y
^
,
β
^
0
=
y
¯
−
β
^
1
x
¯
.
{\displaystyle {\hat {\beta }}_{1}={\frac {\sum {x_{i}y_{i}}-{\frac {1}{n}}\sum {x_{i}}\sum {y_{i}}}{\sum {x_{i}^{2}}-{\frac {1}{n}}(\sum {x_{i}})^{2}}}={\frac {\widehat {{\text{Cov}}\left(x,y\right)}}{{\hat {\sigma _{x}}}^{2}}}={\hat {\rho }}_{xy}{\frac {\hat {\sigma _{x}}}{\hat {\sigma _{y}}}},\quad {\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}\,{\overline {x}}\ .}
对于多元线性回归模型,
y
i
=
∑
j
=
0
p
β
j
x
i
j
+
ε
i
{\displaystyle y_{i}=\sum _{j=0}^{p}\beta _{j}x_{ij}+\varepsilon _{i}}
,
x
i
0
=
1
;
i
=
1
,
…
n
.
{\displaystyle x_{i0}=1;\quad i=1,\dots n.}
使用矩阵形式,线性回归模型可简化记为
Y
=
X
β
+
ε
{\displaystyle \mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}
,其中采用了以下记号:
Y
=
(
y
1
,
y
2
,
…
,
y
n
)
T
{\displaystyle \mathbf {Y} =(y_{1},y_{2},\dots ,y_{n})^{T}}
(观测值向量,Vector of Responses),
X
=
(
x
i
j
)
=
[
1
x
11
x
12
⋯
x
1
p
1
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
⋱
⋮
1
x
n
1
x
n
2
⋯
x
n
p
]
{\displaystyle \mathbf {X} =(x_{ij})={\begin{bmatrix}1&x_{11}&x_{12}&\cdots &x_{1p}\\1&x_{21}&x_{22}&\cdots &x_{2p}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&x_{n2}&\cdots &x_{np}\end{bmatrix}}}
(设计矩阵,Design Matrix),
β
=
(
β
0
,
β
1
,
…
,
β
p
)
T
{\displaystyle {\boldsymbol {\beta }}=(\beta _{0},\beta _{1},\dots ,\beta _{p})^{T}}
(参数向量,Vector of Parameters),
ε
=
(
ε
1
,
ε
2
,
…
,
ε
n
)
T
{\displaystyle {\boldsymbol {\varepsilon }}=(\varepsilon _{1},\varepsilon _{2},\dots ,\varepsilon _{n})^{T}}
(随机误差向量,Vectors of Error)。
高斯-马尔可夫定理的假设条件 是:
E
(
ε
∣
X
)
=
0
{\displaystyle {\rm {E}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)=0}
,
∀
X
{\displaystyle \forall \mathbf {X} }
(零均值),
V
a
r
(
ε
∣
X
)
=
E
(
ε
ε
T
∣
X
)
=
σ
ε
2
I
n
{\displaystyle {\rm {Var}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)={\rm {E}}\left({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{T}\mid \mathbf {X} \right)=\sigma _{\varepsilon }^{2}\mathbf {I_{n}} }
,(同方差且不相关),其中
I
n
{\displaystyle \mathbf {I_{n}} }
为n阶单位矩阵 (Identity Matrix)。
则对
β
{\displaystyle {\boldsymbol {\beta }}}
的最佳线性无偏估计为
β
^
=
(
X
T
X
)
−
1
X
T
Y
{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{T}\mathbf {X} )^{-1}\mathbf {X} ^{T}\mathbf {Y} }