估计量

在统计学中，估计量（Estimator），亦称推定量，是基于观测数据计算一个已知量的估计值的法则：于是估计量（estimator）、被估量（estimand）和估计值（estimate）是有区别的。

估计量用来估计未知总体的参数，它有时也被称为估计子；一次估计是指把这个函数应用在一组已知的数据集上，求函数的结果。对于给定的参数，可以有许多不同的估计量。我们通过一些选择标准从它们中选出较好的估计量，但是有时候很难说选择这一个估计量比另外一个好。

定义

假设存在一个固定的待估参数 $\theta$ 。那么"估计量"是样本空间映射到样本估计值的一个函数。 $\theta$ 的一个估计量记为 ${\widehat {\theta }}$ 。

易用随机变量的代数来阐述这个理论：如果用X来标记对应观测数据的随机变量，估计量（本身视为随机变量）的符号表示为该随机变量的函数， ${\widehat {\theta }}(X)$ 。对特定观测数据集（即对于X=x）而言，其估计值为一固定值 ${\widehat {\theta }}(x)$ 。通常使用简化标记 ${\widehat {\theta }}$ 表示随机变量，但这容易造成误解。

量化特性

以下定义和属性是相关的。^[1]

误差

对于一个给定样本 $x$ ，估计量 ${\widehat {\theta }}$ 的“误差”定义为

e(x)={\widehat {\theta }}(x)-\theta ,

其中 $\theta$ 是待估参数。注意误差e不仅取决于估计量（估计公式或过程），还取决于样本。

均方误差

估计量 ${\hat {\theta }}$ 的均方误差被定义为误差的平方的期望，即为：

MSE({\hat {\theta }})=E[({\hat {\theta }}(x)-\theta )^{2}]

它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比：假设“参数”是靶子的靶心，“估计量”是向靶子射箭的过程，而每一支箭则是“估计值”（样本）。那么，高均方误差就意味着每一支箭离靶心的平均距离较大，低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚，也可能不。比如说，即使所有箭支都射中了同一个点，同时却严重偏离了靶子，均方误差相对来说依然很大。然而要注意的是，如果均方误差相对较小，箭支则更有可能集聚（而不是离散）。

抽样偏差

方差

偏差

$bias({\hat {\theta }}(x))=E[{\hat {\theta }}(x)]-{\theta }$

行为特性

一致性

一致估计量序列是一列随着序号（通常是样本容量）无限增大时依概率收敛于被估量的估计量序列。换句话说，增加样本容量增大了估计量接近总体参数的概率。

在数学上，一个估计量序列{t_n; n ≥ 0}是参数θ的一致估计量当且仅当对于所有ϵ > 0，不管多小，我们都有

\lim _{n\to \infty }\Pr \left\{\left|t_{n}-\theta \right|<\epsilon \right\}=1.

就如，一个人不断地抛硬币，随着次数的增多，任何一面出现的概率（机率）就会趋于0.5。那么这个0.5就是这个抛硬币事件中任何一面出现概率的一致估计量，或者说一致估计值。

参见

外部链接

关于统计函数的课程

^ Jaynes (2007), p.172.

[1] Jaynes (2007), p.172.

[1]