方差

“Variance”的各地常用名称
“Variance”的各地常用名称
中国大陆	方差
台湾	变异数
港澳	方差
日本、韩国	分散
越南	分散（phương sai）

变异数（英语：variance）又称变异数^[1]、变方^[2]，在概率论及统计学中，描述的是一个随机变量的离散程度，即一组数字与其平均值之间的距离的度量，是随机变量与其总体均值或样本均值的离差的平方的期望值。方差在统计中有非常核心的地位，其应用领域包括描述统计学、推论统计学、假说检定、度量拟合优度，以及蒙特卡洛采样。由于科学分析经常涉及统计，方差也是重要的科研工具。方差是标准差的平方、分布的二阶矩，以及随机变量与其自身的协方差，其常用的符号表示有 $\sigma ^{2}$ 、 $s^{2}$ 、 $\operatorname {Var} (X)$ 、 $V(X)$ ，以及 $\mathbb {V} (X)$ 。^[3]

方差作为离散度量的优点是，它比其他离散度量（如平均差）更易于代数运算；例如，一组不相关的随机变量和的方差等于它们方差的和。在实际应用中，方差的一个缺点是它与随机变量的单位不同，而标准差则单位相同，这就是计算完成后通常采用标准差来衡量离散程度的原因。

有两个不同的概念都被称为“方差”。一种如上所述，是理论概率分布的方差。而另一种方差是一组观测值的特征。观测值通常是从真实世界的系统中测量的。如果给出系统的所有可能的观测，则它们算出的方差称为总体方差；然而，一般情况下我们只使用总体的一个子集（样本），由此计算出的方差称为样本方差。用样本计算出的方差可认为是对整个总体的方差的估计量。

方差的正平方根称为该随机变量的标准差；方差除以期望值归一化的值叫分散指数；标准差除以平均值归一化的值叫变异系数。

定义

设 $X$ 为服从分布 $F$ 的随机变量，如果 $E [X]$ 是随机变量 $X$ 的期望值（均值 $μ = E [X]$ ），则随机变量 $X$ 或者分布 $F$ 的方差为 $X$ 的离差平方的期望值：

\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]

这个定义涵盖了连续、离散，或两者皆非的随机变量。方差亦可视作随机变量与自身的协方差：

\operatorname {Var} (X)=\operatorname {Cov} (X,X)

方差也等价于生成 $X$ 的概率分布的二阶累积量。方差的常用的表达有 $\operatorname {Var} (X)$ ，有时作 $V(X)$ 或 $\mathbb {V} (X)$ ，也可写作符号 $\sigma _{X}^{2}$ 或 $\sigma ^{2}$ （读作“sigma方”）。方差的表达式可展开如下：

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}

也就是说， $X$ 的方差等于 $X$ 平方的均值减去 $X$ 均值的平方。该等式不应该用于浮点运算，因为如果等式的两个成分大小相似，将会造成灾难性抵消。

离散随机变量

如果随机变量 $X$ 是具有概率质量函数的离散随机分布 $x 1 \mapsto p 1, ..., x n \mapsto p n$ ，则：

\operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}=\sum _{i=1}^{n}(p_{i}\cdot x_{i}^{2})-\mu ^{2}

此处 $\mu$ 是其期望值，即：

\mu =\sum _{i=1}^{n}p_{i}\cdot x_{i}.

$x_{i}$ 表示实现值(realized value)

当 $X$ 为有 $n$ 个相等机率值的离散型均匀分布时：

\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i},

\operatorname {Var} (X)=\sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}-n\mu ^{2}\right)={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n}}-\mu ^{2}.

$n$ 个相等机率值的方差亦可以点对点间的方变量表示为：

\operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}.

连续型随机变量

如果随机变量 $X$ 是连续分布，机率密度函数为 $f (x)$ ，相应的累积分布函数为 $F (x)$ ，则其方差为：

{\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{aligned}}

或等价地：

\operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},

其中 $\mu$ 为 $X$ 的期望值，其计算方法如下：

\mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x).

这些公式中， $dx$ 和 $dF(x)$ 的积分分别为勒贝格积分和勒贝格-斯蒂尔吉斯积分（英语：Lebesgue–Stieltjes integration）。

若函数 $x^{2}f(x)$ 在每个有限区间 $[a,b]\subset \mathbb {R}$ 都是黎曼可积的，则：

\operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2},

该积分为非正常黎曼积分。

常见概率分布

下表列出了一些常用概率分布的方差。

概率分布类型	概率分布函数	均值	方差
二项式分布	$\Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$	$np$	$np(1-p)$
几何分布	$\Pr \,(X=k)=(1-p)^{k-1}p$	${\frac {1}{p}}$	${\frac {(1-p)}{p^{2}}}$
正态分布	$f\left(x\mid \mu ,\sigma ^{2}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}$	$\mu$	$\sigma ^{2}$
连续型均匀分布	$f(x\mid a,b)={\begin{cases}{\frac {1}{b-a}}&{\text{for }}a\leq x\leq b,\\[3pt]0&{\text{for }}x<a{\text{ or }}x>b\end{cases}}$	${\frac {a+b}{2}}$	${\frac {(b-a)^{2}}{12}}$
指数分布	$f(x\mid \lambda )=\lambda e^{-\lambda x}$	${\frac {1}{\lambda }}$	${\frac {1}{\lambda ^{2}}}$
卜瓦松分布	$f(k\mid \lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}}$	$\lambda$	$\lambda$

特性

方差不会是负的，因为平方运算结果为非负数：

\operatorname {Var} (X)\geq 0

一个常数随机变数的方差为零。反之，若有限个数组成的资料集方差为零，则其内所有数皆相等。对于一般随机变数，也有类似结论，即方差为零推出该变数几乎总是取同一个值：

P(X=a)=1\Leftrightarrow \operatorname {Var} (X)=0

方差不变于定位参数的变动。也就是说，如果一个常数被加至一个数列中的所有变数值，此数列的方差不会改变：

\operatorname {Var} (X+a)=\operatorname {Var} (X).

如果所有数值被放大一个常数倍，方差会放大此常数的平方倍：

\operatorname {Var} (aX)=a^{2}\operatorname {Var} (X)

两个随机变数合的方差为：

\operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y),

\operatorname {Var} (X-Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)-2\,\operatorname {Cov} (X,Y),

此处 $Cov(X, Y)$ 代表共变异数。

对于 $N$ 个随机变数 $\{X_{1},\dots ,X_{N}\}$ 的总和：

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j})

在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间： $L 2 (Ω, dP)$ ，不过这里的内积和长度跟协方差，标准差还是不大一样。所以，我们得把这个空间“除”常变量构成的子空间，也就是说把相差一个常数的所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间，并且有一个从旧空间内积诱导出来的新内积，而这个内积就是协方差。

总体方差和样本方差

总体方差

一般而言，一个有限的容量为 $N$ 、元素的值为 $x i$ 的总体的总体方差为：

{\begin{aligned}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\mu ^{2}\end{aligned}}

其中总体均值为：

\mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.

总体方差也可用下式计算：

\sigma ^{2}={\frac {1}{N^{2}}}\sum _{i<j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}.

该式成立，是因为：

{\begin{aligned}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}\\[5pt]={}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2N}}\sum _{j=1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}\right)+{\frac {1}{2N}}\sum _{i=1}^{N}\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)\\[5pt]={}&\sigma ^{2}\end{aligned}}

总体方差与生成该总体的概率分布的方差相匹配。因此，“总体”的概念可推广到具有无限总体的连续随机变量。

样本方差

有偏样本方差

在许多实际情况下，总体的真实方差无法事先知道，必须以某种方式计算出来。在面对非常大的总体时，不可能计算总体中的每一个元素，因此必须从总体中抽取样本进行计算。^[4]样本方差还可以应用于用连续分布的样本来估计该分布的方差。

下面我们从总体中有放回抽取 $n$ 个数值 $Y 1, ..., Y n$ ，其中 $n < N$ ，并用该样本来估计总体的方差。^[5]直接使用样本数据的方差，得到的是离差平方（英语：squared deviations）的均值：

\sigma _{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}Y_{i}^{2}\right)-{\overline {Y}}^{2}={\frac {1}{n^{2}}}\sum _{i,j\,:\,i<j}\left(Y_{i}-Y_{j}\right)^{2}.

此处， ${\overline {Y}}$ 表示样本均值：

{\overline {Y}}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}.

由于 $Y i$ 是随机选取的， ${\overline {Y}}$ 和 $\sigma _{Y}^{2}$ 都是随机变量。它们的期望值可以用从总体中抽取的所有可能的容量为 $n$ 的 ${Y i}$ 的样本集合来估计。对于 $\sigma _{Y}^{2}$ 即为：

{\begin{aligned}\operatorname {E} [\sigma _{Y}^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j}\right)^{2}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left[Y_{i}^{2}-{\frac {2}{n}}Y_{i}\sum _{j=1}^{n}Y_{j}+{\frac {1}{n^{2}}}\sum _{j=1}^{n}Y_{j}\sum _{k=1}^{n}Y_{k}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {n-2}{n}}\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}\left(\sigma ^{2}+\mu ^{2}\right)-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1)\mu ^{2}+{\frac {1}{n}}\left(\sigma ^{2}+\mu ^{2}\right)\right]\\[5pt]&={\frac {n-1}{n}}\sigma ^{2}.\end{aligned}}

因此， $\sigma _{Y}^{2}$ 给出的是总体方差的有偏估计量，偏差为 ${\frac {n-1}{n}}$ 。因此， $\sigma _{Y}^{2}$ 称为有偏样本方差。

无偏样本方差

将偏差纠正后，可得到无偏样本方差，记为 $s^{2}$ ：

s^{2}={\frac {n}{n-1}}\sigma _{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1}{n-1}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}

当语境明确时，两个估计量都可以简称为“样本方差”。同样的证明也适用于取自连续概率分布的样本。

其中，对 $n - 1$ 的使用称为贝塞尔校正（英语：Bessel's correction），它也用于样本协方差（英语：sample covariance）和样本标准差（方差的平方根）。平方根是一个凹函数，因此会引入负偏差（根据简森不等式），具体取决于分布，因此校正的样本标准差（使用贝塞尔校正）是有偏的。标准差的无偏估计（英语：unbiased estimation of standard deviation）是一个技术上复杂的问题，不过对于正态分布，使用 $n - 1.5$ 能得到几乎无偏的估计值。

无偏样本方差是函数 $ƒ (y 1, y 2) = (y 1 - y 2) 2 /2$ 的U-统计量。

一般化

如果 $X$ 是一个向量其取值范围在实数空间 $R n$ ，并且其每个元素都是一个一维随机变量，我们就把 $X$ 称为随机向量。随机向量的方差是一维随机变量方差的自然推广，其定义为 $E [(X - μ)(X - μ) T]$ ，其中 $μ = E (X)$ ， $X T$ 是 $X$ 的转置。这个方差是一个非负定的方阵，通常称为协方差矩阵。

如果 $X$ 是一个复数随机变量的向量（向量中每个元素均为复数的随机变数），那么其方差定义则为 $E [(X - μ)(X - μ) *]$ ，其中 $X *$ 是 $X$ 的共轭转置向量或称为埃尔米特向量。根据这个定义，变异数为实数。

历史

“方差”（variance）这个名词率先由罗纳德·费雪（英语：Ronald Fisher）在论文《The Correlation between Relatives on the Supposition of Mendelian Inheritance》^[6]中提出。

后来方差逐渐衍生出了“半方差”（semivariance）、“亚方差”（hypo variance）、“超方差”（super variance）、“圆方差（英语：circular variance）”（circular variance）与“倒方差”（inverse variance）等概念。

半方差

半方差的计算方式与方差类似，但是只包括了低于均值的观测值：

{\text{Semivariance}}={1 \over {n}}\sum _{i:x_{i}<\mu }(x_{i}-\mu )^{2}

半方差在不同应用领域也被用作特殊的量度。对于偏态分布，半方差能提供方差所不能提供的额外信息。^[7]

参见

方差分析
标准差
标准离差率
变异系数
异方差
最小平方频谱分析法
离散程度
方差稳定化变换（英语：Variance-stabilizing transformation）

方差类型

参考文献

^ 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.
^ 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.
^ Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.
^ Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.
^ Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York
^ Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （页面存档备份，存于互联网档案馆）
^ Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始内容存档于2021-07-25）.

[1] 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.

[2] 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.

[3] Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.

[4] Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.

[5] Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York

[6] Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （页面存档备份，存于互联网档案馆）

[7] Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始内容存档于2021-07-25）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]