變異數

「Variance」的各地常用名稱
「Variance」的各地常用名稱
中國大陸	方差
臺灣	變異數
港澳	方差
日本、韓國	分散
越南	分散（phương sai）

變異數（英語：variance）又稱方差^[1]、變方^[2]，在機率論及統計學中，描述的是一個隨機變數的離散程度，即一組數字與其平均值之間的距離的度量，是隨機變數與其母體均值或樣本均值的離差的平方的期望值。變異數在統計中有非常核心的地位，其應用領域包括敘述統計學、推論統計學、假說檢定、度量適合度，以及蒙地卡羅採樣。由於科學分析經常涉及統計，變異數也是重要的科研工具。變異數是標準差的平方、分布的二階動差，以及隨機變數與其自身的共變異數，其常用的符號表示有 $\sigma ^{2}$ 、 $s^{2}$ 、 $\operatorname {Var} (X)$ 、 $V(X)$ ，以及 $\mathbb {V} (X)$ 。^[3]

變異數作為離散度量的優點是，它比其他離散度量（如平均差）更易於代數運算；例如，一組不相關的隨機變數和的變異數等於它們變異數的和。在實際應用中，變異數的一個缺點是它與隨機變數的單位不同，而標準差則單位相同，這就是計算完成後通常採用標準差來衡量離散程度的原因。

有兩個不同的概念都被稱為「變異數」。一種如上所述，是理論機率分布的變異數。而另一種變異數是一組觀測值的特徵。觀測值通常是從真實世界的系統中測量的。如果給出系統的所有可能的觀測，則它們算出的變異數稱為母體變異數；然而，一般情況下我們只使用母體的一個子集（樣本），由此計算出的變異數稱為樣本變異數。用樣本計算出的變異數可認為是對整個母體的變異數的估計量。

變異數的正平方根稱為該隨機變數的標準差；變異數除以期望值歸一化的值叫分散指數；標準差除以平均值歸一化的值叫變異係數。

定義

設 $X$ 為服從分布 $F$ 的隨機變數，如果 $E [X]$ 是隨機變數 $X$ 的期望值（均值 $μ = E [X]$ ），則隨機變數 $X$ 或者分布 $F$ 的變異數為 $X$ 的離差平方的期望值：

\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]

這個定義涵蓋了連續、離散，或兩者皆非的隨機變數。變異數亦可視作隨機變數與自身的共變異數：

\operatorname {Var} (X)=\operatorname {Cov} (X,X)

變異數也等價於生成 $X$ 的機率分布的二階累積量。變異數的常用的表達有 $\operatorname {Var} (X)$ ，有時作 $V(X)$ 或 $\mathbb {V} (X)$ ，也可寫作符號 $\sigma _{X}^{2}$ 或 $\sigma ^{2}$ （讀作「sigma方」）。變異數的表達式可展開如下：

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}

也就是說， $X$ 的變異數等於 $X$ 平方的均值減去 $X$ 均值的平方。該等式不應該用於浮點運算，因為如果等式的兩個成分大小相似，將會造成災難性抵消。

離散隨機變數

如果隨機變數 $X$ 是具有機率質量函數的離散隨機分布 $x 1 \mapsto p 1, ..., x n \mapsto p n$ ，則：

\operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}=\sum _{i=1}^{n}(p_{i}\cdot x_{i}^{2})-\mu ^{2}

此處 $\mu$ 是其期望值，即：

\mu =\sum _{i=1}^{n}p_{i}\cdot x_{i}.

$x_{i}$ 表示實現值(realized value)

當 $X$ 為有 $n$ 個相等機率值的離散型均勻分布時：

\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i},

\operatorname {Var} (X)=\sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}-n\mu ^{2}\right)={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n}}-\mu ^{2}.

$n$ 個相等機率值的變異數亦可以點對點間的方變量表示為：

\operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}.

連續型隨機變數

如果隨機變數 $X$ 是連續分布，機率密度函數為 $f (x)$ ，相應的累積分布函數為 $F (x)$ ，則其變異數為：

{\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{aligned}}

或等價地：

\operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},

其中 $\mu$ 為 $X$ 的期望值，其計算方法如下：

\mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x).

這些公式中， $dx$ 和 $dF(x)$ 的積分分別為勒貝格積分和勒貝格-斯蒂爾吉斯積分（英語：Lebesgue–Stieltjes integration）。

若函數 $x^{2}f(x)$ 在每個有限區間 $[a,b]\subset \mathbb {R}$ 都是黎曼可積的，則：

\operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2},

該積分為非正常黎曼積分。

常見機率分布

下表列出了一些常用機率分布的變異數。

機率分布類型	機率分布函數	均值	變異數
二項式分布	$\Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$	$np$	$np(1-p)$
幾何分布	$\Pr \,(X=k)=(1-p)^{k-1}p$	${\frac {1}{p}}$	${\frac {(1-p)}{p^{2}}}$
常態分布	$f\left(x\mid \mu ,\sigma ^{2}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}$	$\mu$	$\sigma ^{2}$
連續型均勻分布	$f(x\mid a,b)={\begin{cases}{\frac {1}{b-a}}&{\text{for }}a\leq x\leq b,\\[3pt]0&{\text{for }}x<a{\text{ or }}x>b\end{cases}}$	${\frac {a+b}{2}}$	${\frac {(b-a)^{2}}{12}}$
指數分布	$f(x\mid \lambda )=\lambda e^{-\lambda x}$	${\frac {1}{\lambda }}$	${\frac {1}{\lambda ^{2}}}$
卜瓦松分布	$f(k\mid \lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}}$	$\lambda$	$\lambda$

特性

變異數不會是負的，因為平方運算結果為非負數：

\operatorname {Var} (X)\geq 0

一個常數隨機變數的變異數為零。反之，若有限個數組成的資料集變異數為零，則其內所有數皆相等。對於一般隨機變數，也有類似結論，即變異數為零推出該變數幾乎總是取同一個值：

P(X=a)=1\Leftrightarrow \operatorname {Var} (X)=0

變異數不變於定位參數的變動。也就是說，如果一個常數被加至一個數列中的所有變數值，此數列的變異數不會改變：

\operatorname {Var} (X+a)=\operatorname {Var} (X).

如果所有數值被放大一個常數倍，變異數會放大此常數的平方倍：

\operatorname {Var} (aX)=a^{2}\operatorname {Var} (X)

兩個隨機變數合的變異數為：

\operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y),

\operatorname {Var} (X-Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)-2\,\operatorname {Cov} (X,Y),

此處 $Cov(X, Y)$ 代表共變異數。

對於 $N$ 個隨機變數 $\{X_{1},\dots ,X_{N}\}$ 的總和：

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j})

在樣本空間Ω上存在有限期望值和變異數的隨機變數構成一個希爾伯特空間： $L 2 (Ω, dP)$ ，不過這裡的內積和長度跟共變異數，標準差還是不大一樣。所以，我們得把這個空間「除」常變量構成的子空間，也就是說把相差一個常數的所有原來那個空間的隨機變數做成一個等價類。這還是一個新的無窮維線性空間，並且有一個從舊空間內積誘導出來的新內積，而這個內積就是共變異數。

母體變異數和樣本變異數

母體變異數

一般而言，一個有限的容量為 $N$ 、元素的值為 $x i$ 的母體的母體變異數為：

{\begin{aligned}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\mu ^{2}\end{aligned}}

其中母體均值為：

\mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.

母體變異數也可用下式計算：

\sigma ^{2}={\frac {1}{N^{2}}}\sum _{i<j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}.

該式成立，是因為：

{\begin{aligned}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}\\[5pt]={}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2N}}\sum _{j=1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}\right)+{\frac {1}{2N}}\sum _{i=1}^{N}\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)\\[5pt]={}&\sigma ^{2}\end{aligned}}

母體變異數與生成該母體的機率分布的變異數相匹配。因此，「母體」的概念可推廣到具有無限母體的連續隨機變數。

樣本變異數

偏誤樣本變異數

在許多實際情況下，母體的真實變異數無法事先知道，必須以某種方式計算出來。在面對非常大的母體時，不可能計算母體中的每一個元素，因此必須從母體中抽取樣本進行計算。^[4]樣本變異數還可以應用於用連續分布的樣本來估計該分布的變異數。

下面我們從母體中有放回抽取 $n$ 個數值 $Y 1, ..., Y n$ ，其中 $n < N$ ，並用該樣本來估計母體的變異數。^[5]直接使用樣本數據的變異數，得到的是離差平方（英語：squared deviations）的均值：

\sigma _{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}Y_{i}^{2}\right)-{\overline {Y}}^{2}={\frac {1}{n^{2}}}\sum _{i,j\,:\,i<j}\left(Y_{i}-Y_{j}\right)^{2}.

此處， ${\overline {Y}}$ 表示樣本均值：

{\overline {Y}}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}.

由於 $Y i$ 是隨機選取的， ${\overline {Y}}$ 和 $\sigma _{Y}^{2}$ 都是隨機變數。它們的期望值可以用從母體中抽取的所有可能的容量為 $n$ 的 ${Y i}$ 的樣本集合來估計。對於 $\sigma _{Y}^{2}$ 即為：

{\begin{aligned}\operatorname {E} [\sigma _{Y}^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j}\right)^{2}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left[Y_{i}^{2}-{\frac {2}{n}}Y_{i}\sum _{j=1}^{n}Y_{j}+{\frac {1}{n^{2}}}\sum _{j=1}^{n}Y_{j}\sum _{k=1}^{n}Y_{k}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {n-2}{n}}\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}\left(\sigma ^{2}+\mu ^{2}\right)-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1)\mu ^{2}+{\frac {1}{n}}\left(\sigma ^{2}+\mu ^{2}\right)\right]\\[5pt]&={\frac {n-1}{n}}\sigma ^{2}.\end{aligned}}

因此， $\sigma _{Y}^{2}$ 給出的是母體變異數的偏誤估計量，偏差為 ${\frac {n-1}{n}}$ 。因此， $\sigma _{Y}^{2}$ 稱為偏誤樣本變異數。

不偏樣本變異數

將偏差糾正後，可得到不偏樣本變異數，記為 $s^{2}$ ：

s^{2}={\frac {n}{n-1}}\sigma _{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1}{n-1}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}

當語境明確時，兩個估計量都可以簡稱為「樣本變異數」。同樣的證明也適用於取自連續機率分布的樣本。

其中，對 $n - 1$ 的使用稱為貝塞爾校正（英語：Bessel's correction），它也用於樣本共變異數（英語：sample covariance）和樣本標準差（變異數的平方根）。平方根是一個凹函數，因此會引入負偏差（根據簡森不等式），具體取決於分布，因此校正的樣本標準差（使用貝塞爾校正）是偏誤的。標準差的不偏估計（英語：unbiased estimation of standard deviation）是一個技術上複雜的問題，不過對於常態分布，使用 $n - 1.5$ 能得到幾乎不偏的估計值。

不偏樣本變異數是函數 $ƒ (y 1, y 2) = (y 1 - y 2) 2 /2$ 的U-統計量。

一般化

如果 $X$ 是一個向量其取值範圍在實數空間 $R n$ ，並且其每個元素都是一個一維隨機變數，我們就把 $X$ 稱為隨機向量。隨機向量的變異數是一維隨機變數變異數的自然推廣，其定義為 $E [(X - μ)(X - μ) T]$ ，其中 $μ = E (X)$ ， $X T$ 是 $X$ 的轉置。這個變異數是一個非負定的方陣，通常稱為共變異數矩陣。

如果 $X$ 是一個複數隨機變數的向量（向量中每個元素均為複數的隨機變數），那麼其變異數定義則為 $E [(X - μ)(X - μ) *]$ ，其中 $X *$ 是 $X$ 的共軛轉置向量或稱為埃爾米特向量。根據這個定義，變異數為實數。

歷史

「變異數」（variance）這個名詞率先由羅納德·費雪（英語：Ronald Fisher）在論文《The Correlation between Relatives on the Supposition of Mendelian Inheritance》^[6]中提出。

後來變異數逐漸衍生出了「半變異數」（semivariance）、「亞變異數」（hypo variance）、「超變異數」（super variance）、「圓變異數（英語：circular variance）」（circular variance）與「倒變異數」（inverse variance）等概念。

半變異數

半變異數的計算方式與變異數類似，但是只包括了低於均值的觀測值：

{\text{Semivariance}}={1 \over {n}}\sum _{i:x_{i}<\mu }(x_{i}-\mu )^{2}

半變異數在不同應用領域也被用作特殊的量度。對於偏態分布，半變異數能提供變異數所不能提供的額外資訊。^[7]

參見

變異數分析
標準差
標準離差率
變異係數
異質變異數
最小平方頻譜分析法
離散程度
變異數穩定化轉換（英語：Variance-stabilizing transformation）

變異數類型

參考文獻

^ 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.
^ 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.
^ Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.
^ Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.
^ Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York
^ Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （頁面存檔備份，存於網際網路檔案館）
^ Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始內容存檔於2021-07-25）.

[1] 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.

[2] 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.

[3] Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.

[4] Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.

[5] Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York

[6] Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （頁面存檔備份，存於網際網路檔案館）

[7] Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始內容存檔於2021-07-25）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]