拉奥-布莱克韦尔定理

在统计学中，拉奥-布莱克韦尔定理(Rao–Blackwell theorem)，有时称为拉奥-布莱克韦尔定理-柯尔莫果洛夫定理，是一项结果，它描述了如何将任意粗糙的估计量转化为通过均方误差准则或任何一种类似准则优化的估计量。

定理指出，如果g(X)是某个参数θ的任何一种估计量，那么在给定充分统计量T(X)的条件下，g(X)的条件期望通常比g(X)本身更好地估计了θ，而且从来不会更糟。有时，可以非常容易地构造一个非常粗糙的估计量g(X)，然后评估条件期望值，以获得在各种意义上都是最优的估计量。其中，充分统计量的意义是其包含数据样本中所有与待估计参数相关的信息，且不含任何冗余信息。

这个定理是以卡利安普迪·拉达克里希纳·拉奥和戴维·布莱克韦尔命名的。使用拉奥-布莱克韦尔定理来转化一个估计量的过程可以被称为拉奥-布莱克韦尔化。转化后的估计量被称为拉奥-布莱克韦尔估计量。 ^[1]^[2]^[3]

定义

一个估计量δ(X)是一个可观测的随机变量（即统计量），用于估计某些不可观测的量。例如，我们可能无法观测到X大学所有男学生的平均身高，但我们可以观测40个学生的身高。这40个学生的平均身高——"样本平均数"——可以用作估计不可观测的"总体平均数"的估计量。
一个充分统计量T(X)是从数据X计算出来的一个统计量，用于估计某个参数θ，而除了这个统计量以外，从数据X中计算出来的其他统计量不会提供关于θ的任何额外信息。它被定义为一个可观测的随机变量，使得给定T(X)的条件概率分布不依赖于未观测到的参数θ，例如整个数据样本的平均值或标准差等。在最常被引用的例子中，“未观测到的”量是指参数，这些参数根据已知的概率分布族来对数据进行参数化。

换句话说，对于参数θ，一个充分统计量T(X)是这样一个统计量，使得给定T(X)的条件下，数据X的条件分布不依赖于参数θ。

一个未观测量θ的拉奥-布莱克韦尔估计量δ₁(X)是给定充分统计量T(X)的条件下，某个估计量δ(X)的条件期望值E(δ(X)|T(X))。我们把δ(X)称为"原始估计量"，把δ₁(X)称为"改进估计量"。改进估计量的重要性在于它是可观测的，即它不依赖于θ。一般而言，给定这些数据中的一个函数的条件期望值，另一个函数的条件期望值会依赖于θ，但是上述充分统计量的定义说明了这个条件期望值不会依赖于θ。
不可观测量θ的拉奥-布莱克韦尔估计量δ₁(X) 是给定充分统计量T(X)的某个估计量 δ(X)的条件期望值E(δ(X)|T(X))。将δ(X) 称为“原始估计量” ，将 δ₁(X)称为“改进后的估计量” 。重要的是改进后的估计器是可观察的，即它不依赖于θ。通常，在给定这些数据的另一个函数的情况下，这些数据的一个函数的条件期望值确实取决于θ，但上面给出的充分性的定义本身就意味着这个不成立。
一个估计量的均方误差是它与待估计的参数θ的偏差的平方的期望值。

定理

均方误差版本

拉奥-布莱克韦尔定理的一个特例可以表述为：

拉奥-布莱克韦尔估计量的均方误差不超过原始估计量的均方误差。

换句话说，

\operatorname {E} ((\delta _{1}(X)-\theta )^{2})\leq \operatorname {E} ((\delta (X)-\theta )^{2}).

除了上述定义，证明该定理所需的关键工具包括全期望公式和以下事实：对于任何随机变量Y，E(Y²)不会小于[E(Y)]²。这个不等式是琴生不等式的一个特例，尽管它也可以立即从经常提到的事实得出

0\leq \operatorname {Var} (Y)=\operatorname {E} ((Y-\operatorname {E} (Y))^{2})=\operatorname {E} (Y^{2})-(\operatorname {E} (Y))^{2}.

更精确地说，拉奥-布莱克韦尔估计量的均方误差有以下分解形式^[4]

\operatorname {E} [(\delta _{1}(X)-\theta )^{2}]=\operatorname {E} [(\delta (X)-\theta )^{2}]-\operatorname {E} [\operatorname {Var} (\delta (X)\mid T(X))]

由于 $\operatorname {E} [\operatorname {Var} (\delta (X)\mid T(X))]\geq 0$ ，因此拉奥-布莱克韦尔定理可以立即得出。

凸损失泛化

拉奥-布莱克韦尔定理的更一般版本涉及到“期望损失”或风险函数：

\operatorname {E} (L(\delta _{1}(X)))\leq \operatorname {E} (L(\delta (X)))

其中“损失函数”L可以是任何凸函数。如果损失函数是二次可微的，例如均方误差的情况，那么我们可以得到更精确的不等式^[4]

\operatorname {E} (L(\delta (X)))-\operatorname {E} (L(\delta _{1}(X)))\geq {\frac {1}{2}}\operatorname {E} _{T}\left[\inf _{x}L''(x)\operatorname {Var} (\delta (X)\mid T)\right].

性质

改进估计量无偏当且仅当原始估计量无偏，这可以立即通过使用全期望公式得到。无论使用偏倚还是无偏估计量，该定理都成立。

改进后的估计量是无偏的当且仅当原始估计量是无偏的，这可以通过使用总期望定律立即看出。无论使用有偏估计量还是无偏估计量，该定理都成立。

这个定理看起来很弱，它仅仅表明拉奥-布莱克韦尔估计量不会比原始估计量更差。但在实践中，改进通常是巨大的，因为使用充分统计量来改进估计量可以减少估计误差，提高估计的准确性。^[5]

例子

电话呼叫以平均每分钟λ个的泊松过程到达交换机板。这个速率是不可观测的，但是我们可以观测到在n个连续的一分钟时间段内到达的电话数量X₁, ..., X_n。现在我们希望估计在下一个一分钟时间段内没有电话呼叫的概率e^−λ。

一个极其粗略的估计量可以用来估计所需概率：

\delta _{0}=\left\{{\begin{matrix}1&{\text{if}}\ X_{1}=0,\\0&{\text{otherwise,}}\end{matrix}}\right.

也就是说，如果在第一分钟内没有电话呼叫，则它会将此概率估计为1，否则估计值为0。尽管这个估计量的限制显而易见，但是通过对其进行拉奥-布莱克韦尔化处理得到的结果是一个非常好的估计量。

总和

S_{n}=\sum _{i=1}^{n}X_{i}=X_{1}+\cdots +X_{n}

可以很容易地证明，这个求和式是λ的一个充分统计量，即数据X₁, ..., X_n的条件分布只通过这个求和式依赖于λ。因此，我们可以得到拉奥-布莱克韦尔估计量：

\delta _{1}=\operatorname {E} (\delta _{0}\mid S_{n}=s_{n}).

通过一些计算我们可以得出

{\begin{aligned}\delta _{1}&=\operatorname {E} \left(\mathbf {1} _{\{X_{1}=0\}}{\Bigg |}\sum _{i=1}^{n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0{\Bigg |}\sum _{i=1}^{n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0,\sum _{i=2}^{n}X_{i}=s_{n}\right)\times P\left(\sum _{i=1}^{n}X_{i}=s_{n}\right)^{-1}\\&=e^{-\lambda }{\frac {\left((n-1)\lambda \right)^{s_{n}}e^{-(n-1)\lambda }}{s_{n}!}}\times \left({\frac {(n\lambda )^{s_{n}}e^{-n\lambda }}{s_{n}!}}\right)^{-1}\\&={\frac {\left((n-1)\lambda \right)^{s_{n}}e^{-n\lambda }}{s_{n}!}}\times {\frac {s_{n}!}{(n\lambda )^{s_{n}}e^{-n\lambda }}}\\&=\left(1-{\frac {1}{n}}\right)^{s_{n}}\end{aligned}}

由于在前n分钟内到达电话的平均数量为nλ，因此如果n很大，这个估计量有相当高的概率接近于

\left(1-{1 \over n}\right)^{n\lambda }\approx e^{-\lambda }.

因此，δ₁显然是最后一个数量的一个大大改进的估计量。事实上，由于S_n是完全的而δ₀是无偏的，根据Lehmann–Scheffé定理（英语），δ₁是唯一的最小方差无偏估计量。

幂等性

拉奥-布莱克韦尔化是一个幂等操作。使用它来改进已经改进的估计器不会获得进一步的改进，而只会返回相同的改进后的估计器作为输出。

完全性和 Lehmann–Scheffé 最小方差

如果条件统计量既是完全的又是充分的，并且起始估计量是无偏的，则拉奥-布莱克韦尔估计量是唯一的“最佳无偏估计量”：参见Lehmann-Scheffé 定理。

Galili Meilijson 2016年提供了一个可改进的拉奥-布莱克韦尔改进的例子，当使用一个不完全的最小充分统计量时。假设 $X_{1},\ldots ,X_{n}$ 是从比例均匀分布 $X\sim U\left((1-k)\theta ,(1+k)\theta \right)$ 的随机样本，其中未知均值为 $E[X]=\theta$ ，已知设计参数 $k\in (0,1)$ 。在寻找 $\theta$ 的“最佳”可能无偏估计器时，自然而然地考虑 $X_{1}$ 作为初始（粗糙的）无偏估计器，然后尝试改进它。由于 $X_{1}$ 不是由 $T=\left(X_{(1)},X_{(n)}\right)$ 确定的 $\theta$ 的最小充分统计量（其中 $X_{(1)}=\min(X_{i})$ 且 $X_{(n)}=\max(X_{i})$ ），因此可以使用拉奥-布莱克韦尔定理改进如下：

{\hat {\theta }}_{RB}=E_{\theta }\left[X_{1}|X_{(1)},X_{(n)}\right]={\frac {X_{(1)}+X_{(n)}}{2}}.

但是，可以证明以下无偏估计量具有较低的方差：

{\hat {\theta }}_{LV}={\frac {1}{2\left(k^{2}{\frac {n-1}{n+1}}+1\right)}}\left[(1-k){{X}_{(1)}}+(1+k){{X}_{(n)}}\right].

事实上，当使用以下估算量时，它甚至可以进一步改进：

{\hat {\theta }}_{BAYES}={\frac {n+1}{n}}\left[1-{\frac {{\frac {\left({\frac {{X}_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{(n)}}{1+k}}\right)}}-1}{{{\left[{\frac {\left({\frac {{X}_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{(n)}}{1+k}}\right)}}\right]}^{n+1}}-1}}\right]{\frac {X_{(n)}}{1+k}}

该模型是一个比例参数模型（英语），可以导出对于不变损失函数的最优不变估计量。 ^[6]

另见

巴苏定理—完全充分和辅助统计的另一个结果

参考

^ Blackwell, D. Conditional expectation and unbiased sequential estimation. Annals of Mathematical Statistics. 1947, 18 (1): 105–110. MR 0019903. Zbl 0033.07603. doi:10.1214/aoms/1177730497  .
^ Kolmogorov, A. N. Unbiased estimates. Izvestiya Akad. Nauk SSSR. Ser. Mat. 1950, 14: 303–326. MR 0036479.
^ Rao, C. Radhakrishna. Information and accuracy attainable in the estimation of statistical parameters. Bulletin of the Calcutta Mathematical Society. 1945, 37 (3): 81–91.
^ ^4.0 ^4.1 J. G. Liao & A. Berg. Sharpening Jensen's Inequality. The American Statistician. 22 June 2018, 73 (3): 278–281. S2CID 88515366. arXiv:1707.08644  . doi:10.1080/00031305.2017.1419145.
^ Carpenter, Bob. Rao-Blackwellization and discrete parameters in Stan. Statistical Modeling, Causal Inference, and Social Science. January 20, 2020 [September 13, 2021]. （原始内容存档于2023-03-07）. The Rao-Blackwell theorem states that the marginalization approach has variance less than or equal to the direct approach. In practice, this difference can be enormous.
^ Taraldsen, Gunnar. Micha Mandel (2020), "The Scaled Uniform Model Revisited," The American Statistician, 74:1, 98–100: Comment. The American Statistician. 2020, 74 (3): 315. ISSN 0003-1305. S2CID 219493070. doi:10.1080/00031305.2020.1769727.

外部链接

Nikulin, M.S., Rao–Blackwell–Kolmogorov theorem, Hazewinkel, Michiel (编), 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

[LS1-1] Blackwell, D. Conditional expectation and unbiased sequential estimation. Annals of Mathematical Statistics. 1947, 18 (1): 105–110. MR 0019903. Zbl 0033.07603. doi:10.1214/aoms/1177730497  .

[LS2-2] Kolmogorov, A. N. Unbiased estimates. Izvestiya Akad. Nauk SSSR. Ser. Mat. 1950, 14: 303–326. MR 0036479.

[LS3-3] Rao, C. Radhakrishna. Information and accuracy attainable in the estimation of statistical parameters. Bulletin of the Calcutta Mathematical Society. 1945, 37 (3): 81–91.

[LiaoBerg2018-4] 4.0 ^4.1 J. G. Liao & A. Berg. Sharpening Jensen's Inequality. The American Statistician. 22 June 2018, 73 (3): 278–281. S2CID 88515366. arXiv:1707.08644  . doi:10.1080/00031305.2017.1419145.

[LS4-5] Carpenter, Bob. Rao-Blackwellization and discrete parameters in Stan. Statistical Modeling, Causal Inference, and Social Science. January 20, 2020 [September 13, 2021]. （原始内容存档于2023-03-07）. The Rao-Blackwell theorem states that the marginalization approach has variance less than or equal to the direct approach. In practice, this difference can be enormous.

[6] Taraldsen, Gunnar. Micha Mandel (2020), "The Scaled Uniform Model Revisited," The American Statistician, 74:1, 98–100: Comment. The American Statistician. 2020, 74 (3): 315. ISSN 0003-1305. S2CID 219493070. doi:10.1080/00031305.2020.1769727.

[1]

[2]

[3]

[4]

[5]

[6]