隨機變量的收斂

概率論中有若干關於隨機變量收斂（Convergence of random variables）的定義。研究一列隨機變量是否會收斂到某個極限隨機變量是概率論中的重要內容，在統計概率和隨機過程中都有應用。在更廣泛的數學領域中，隨機變量的收斂被稱為隨機收斂，表示一系列本質上隨機不可預測的事件所發生的模式可以在樣本數量足夠大的時候得到合理可靠的預測。各種不同的收斂定義實際上是表示預測時不同的刻畫方式。

簡介

正如一個數列可能收斂到某個極限量，一列函數可能收斂到某個極限函數一樣，隨機收斂指的是一系列隨機變量 $\left(X_{n};\;n\in \mathbb {N} \right)$ 在n趨向於無窮大時，會越來越接近某個固定的極限。這個極限可能是指：

$X_{n}$ 趨向某個固定的數；
$X_{n}$ 趨向某個確定函數的輸出值；
$X_{n}$ 的概率分布越來越接近某個特定的隨機變量的概率分布；
$X_{n}$ 和某個特定隨機變量的差別的平均值（數學期望值）趨向於0；
$X_{n}$ 和某個特定隨機變量的差別的方差趨向於0。

等等。這些不同的極限的定義，可以嚴格地寫成不同的收斂方式的定義。

依概率1收斂

依概率1收斂又稱為幾乎處處收斂，其定義接近於函數逐點收斂的定義。事實上，由於隨機變量的本質是由樣本空間 ${\mathit {\Omega }}$ 到取值空間 ${\mathfrak {B}}$ 上的函數。因此，給定一個概率空間 $\left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)$ 中的一列隨機變量 $\left(X_{n};n\in \mathbb {N} \right)$ ，考慮事件 $A_{X}=\left\{\omega ;\;\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\right\}$ 。如果存在一個隨機變量 $X$ ，使得事件 $A_{X}$ 的概率為1，那麼就稱隨機變量序列 $\left(X_{n};n\in \mathbb {N} \right)$ 依概率1收斂到 $X$ （或稱 $\left(X_{n};n\in \mathbb {N} \right)$ 幾乎處處收斂到 $X$ ），記作：

X_{n}{\xrightarrow {a.s.}}X

或

\mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1

當取值空間 ${\mathfrak {B}}$ 是一般的實數空間 $\mathbb {R}$ 時，依概率1收斂的意義是：

對任意的正實數

\varepsilon >0

，

\mathbb {P} {\Big (}\liminf {\big \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|<\varepsilon {\big \}}{\Big )}=1

當空間 ${\mathfrak {B}}$ 是度量空間 (S, d) 的時候，依概率1收斂的意義是：

\mathbb {P} {\Big (}\omega \in \Omega :\,d{\big (}X_{n}(\omega ),X(\omega ){\big )}\,{\xrightarrow[{n\to \infty }]{\,}}\,0{\Big )}=1

依概率收斂

設 $(X_{n};\,n\in \mathbb {N} )$ 是一個隨機變量序列， $X$ 是一個隨機變量。如果對於任意的正實數 $\epsilon >0$ ，都有：

\lim _{n\to \infty }\mathbb {P} (|X-X_{n}|\geq \epsilon )=0

那麼稱序列 $(X_{n};\,n\in \mathbb {N} )$ 依概率收斂到 $X$ ，記作： $X_{n}{\xrightarrow[{n\to \infty }]{\mathbb {P} }}X$

如果 $(X_{n};\,n\in \mathbb {N} )$ 的取值空間是一個可分度量空間(S, d)，那麼依概率收斂的定義為^[1]：

\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.

依概率收斂和依概率1收斂的定義有相似之處，但本質上，依概率1收斂是比依概率收斂更「強」的收斂性質。如果一列隨機變量依概率1收斂到某個極限，那麼它必然也依概率收斂到這個極限，但反之則不然。一個實數上的例子是：設概率空間 $\left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)$ 是區間 ${\mathit {\Omega }}=[0,1)$ 上的一個連續型均勻分布 $\mathbb {P} =\mathbf {U}$ 。一個隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 定義為：

X_{1}=\mathbf {1} _{\left\{\omega \in [0,1)\right\}}=\mathbf {1}

X_{2}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{2}})\right\}},\qquad X_{3}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},1)\right\}}

X_{4}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{4}})\right\}},\qquad X_{5}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{4}},{\frac {1}{2}})\right\}},\qquad X_{6}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},{\frac {3}{4}})\right\}},\qquad X_{7}=\mathbf {1} _{\left\{\omega \in [{\frac {3}{4}},1)\right\}}

\cdots \;

\forall (k,m)\in \mathbb {N} ,\,\,0\leqslant k\leqslant 2^{m}-1,\,\,X_{2^{m}+k}=\mathbf {1} _{\left\{\omega \in [{\frac {k}{2^{m}}},{\frac {k+1}{2^{m}}})\right\}}

由於

\forall 2^{m}\leqslant n\leqslant 2^{m+1}-1,\,\,\mathbb {P} \left(|X_{n}-0|\geqslant \varepsilon \right)={\frac {1}{2^{m}}}

所以

X_{n}{\xrightarrow {\mathbb {P} }}0

，

另一方面，考慮 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 這一組隨機變量，它們取值為1的集合的併集恰好是總區間，因此對每一個 $\omega \in [0,1)$ ，總會有 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 之間的某個變量 $X_{2^{m}+k_{m}}$ ，使得

X_{2^{m}+k_{m}}(\omega )=1

所以，對任意一個 $\omega \in [0,1)$ ，

\lim _{n\to \infty }|X_{n}(\omega )-0|\neq 0

，

即是說， $(X_{n};\,n\in \mathbb {N} )$ 並不依概率1收斂到0。從例子中可以看到，依概率收斂比依概率1收斂更為寬鬆的地方是：當n趨於無窮大的時候，只要偏離極限函數的 $\omega$ （即是集合 $\left\{\omega _{n};\,|X_{n}(\omega _{n})-X(\omega _{n})|\geqslant \varepsilon \right\}$ 中的 $\omega _{n}$ ）「足夠少」，就能使得依概率收斂成立了，這些 $\omega _{n}$ 的集合可以隨着n不同而不同；而依概率1收斂則要求 $\omega _{n}$ 的集合固定地縮減至一個概率為0的集合。因此，依概率1收斂要比依概率收斂更為嚴格。

性質

依概率收斂蘊含依分布收斂：一個依概率收斂的隨機變量序列必然也依分布收斂到同一個極限。
在離散概率空間中，依概率收斂和依概率1收斂是等價的。
依分布收斂蘊含依概率收斂當且僅當依分布收斂的極限是一個常數。
連續映射定理說明：對任意連續函數 $g$ ，如果隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 依概率收斂到 $X$ ，那麼序列 $(g(X_{n});\,n\in \mathbb {N} )$ 依概率收斂到 $g(X)$
依概率收斂定義了確定概率空間上的隨機變量空間上的一個拓撲。這個拓撲可以用樊𰋀度量進行度量化^[2]。
$d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \Pr {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}.$

平方平均收斂與 $\mathbf {L} ^{p}$ 收斂

另一種收斂的定義與測度的積分有關。在積分理論中，如果兩個函數 $f$ 和 $g$ 滿足 $\int _{\mathcal {I}}(f-g)^{2}d\mu =0$ ，那麼這兩個函數在關於測度 $\mu$ 的平方可積空間中相等。隨機變量的平方平均收斂與此相似：如果對平方可積的隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在隨機變量 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[(X_{n}-X)^{2}\right]=0$ ，那麼就說序列 $(X_{n};\,n\in \mathbb {N} )$ 平方平均收斂到 $X$ ，記作：

X_{n}{\xrightarrow {\mathbf {L} ^{2}}}X

由於 $\mathbf {L} ^{2}$ 空間是完備的，極限 $X$ 也一定平方可積。

對於更一般的 $\mathbf {L} ^{p}$ 空間，也有類似的定義：如果對 $\mathbf {L} ^{p}$ 空間中的隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在 $\mathbf {L} ^{p}$ 中的隨機變量 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[|X_{n}-X|^{p}\right]=0$ ，那麼就說序列 $(X_{n};\,n\in \mathbb {N} )$ 依 $\mathbf {L} ^{p}$ 收斂到 $X$ ，記作：

X_{n}{\xrightarrow {\mathbf {L} ^{p}}}X

當常數 $p=1$ 時，也稱為平均收斂。

依分布收斂

依分布收斂是最寬鬆的收斂方式之一。這種收斂不要求查看每個 $\omega$ ，只要求序列的分布趨向於某個極限。直覺上，一個隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變量 $X$ ，如果：

對所有的

a

，都有

\mathbb {P} (X_{n}\leqslant a)\rightarrow \mathbb {P} (X\leqslant a)

。

更嚴格的定義是探討隨機變量 $X_{n}$ 的累積分布函數 $F_{n}(x)=\mathbb {P} (X_{n}\leqslant x)$ 。設有實值的隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 和某個隨機變量 $X$ （其累積分布函數為 $F(x)$ ），如果對 $F(x)$ 的每個連續點 $x$ ，都有 $\lim _{n\to \infty }F_{n}(x)=F(x)$ ，那麼就說 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變量 $X$ 。記作：

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {D}}}X

，

X_{n}{\xrightarrow[{n\to \infty }]{\mathit {d}}}X

或

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {L}}}X

由於依分布收斂只和隨機變量的分布相關，所以也可以稱一系列隨機變量（依分布）收斂於某個分布。設 ${\mathcal {L}}_{X}$ 是極限 $X$ 的分布，那麼依分布收斂也可以記作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {L}}_{X},\,\,X_{n}\rightsquigarrow X

或

{\mathcal {L}}(X_{n})\to {\mathcal {L}}(X)

例如一個隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到標準正態分布，就可以記作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1).

性質

作為最弱的收斂方式之一，依分布收斂無法推出其它的收斂方式。對於存在概率密度函數的連續型隨機變量序列，依分布收斂並不能推出其概率密度函數也同樣收斂。例如對於概率密度函數為 $f_{n}(x)=\left(1-\cos(2\pi nx)\right)\mathbf {1} _{x\in (0,1)}$ 的隨機變量序列，其依分布收斂到均勻分布的隨機變量，但其概率密度函數不收斂^[3]。
依分布收斂的等價定義：一個隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變量 $X$ 和以下命題中的任意一個等價：
- 對所有的有界連續函數 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 對所有具有利普希茨連續性質的函數 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 對所有上有界的上半連續函數 $f$ ，都有： $\limsup \mathbb {E} [f(X_{n})]\leqslant \mathbb {E} [f(X)]$ ；
- 對所有下有界的下半連續函數 $f$ ，都有： $\liminf \mathbb {E} [f(X_{n})]\geqslant \mathbb {E} [f(X)]$ ；
- 對所有閉集 $C$ ，都有： $\limsup _{n\to \infty }\mathbb {P} \left(X_{n}\in C\right)\leqslant \mathbb {P} \left(X\in C\right)$ ；
- 對所有開集 $U$ ，都有： $\liminf _{n\to \infty }\mathbb {P} \left(X_{n}\in U\right)\geqslant \mathbb {P} \left(X\in U\right)$ ；
- 對關於 $X$ 的所有連續集 $A$ ，都有： $\lim _{n\to \infty }\mathbb {P} \left(X_{n}\in A\right)=\mathbb {P} \left(X\in A\right)$ 。
連續映射定理說明，對於連續函數g(·)，如果隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到隨機變量 $X$ ，那麼 $(g(X_{n});\,n\in \mathbb {N} )$ 也依分布收斂到隨機變量 $g(X)$ 。
列維連續性定理：隨機變量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變量 $X$ 當且僅當對應的特徵函數序列 $(\varphi _{n}(x);\,n\in \mathbb {N} )$ 逐點收斂到某個在0處連續的函數 $\varphi$ （此時隨機變量 $X$ 的分布為 $\varphi$ ）。
列維-普羅科洛夫度量是依分布收斂的度量化結果。

關係

各個收斂的定義有強弱之分。一個收斂性強於另一個是指從前者可以推出後者。例如依概率收斂強於依分布收斂，即是說如果一列隨機變量依概率收斂到某個極限，那麼必定也依分布收斂到這個極限。具體來說，收斂性的強弱關係可以用下圖來表示：

{\begin{matrix}{\xrightarrow {L^{r}}}&{\underset {r>s\geq 1}{\Rightarrow }}&{\xrightarrow {L^{s}}}&&\\&&\Downarrow &&\\{\xrightarrow {a.s.}}&\Rightarrow &{\xrightarrow {\ p\ }}&\Rightarrow &{\xrightarrow {\ d\ }}\end{matrix}}

依概率1收斂可以推出依概率收斂^[4]：
$X_{n}\ {\xrightarrow {a.s.}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X$
依概率收斂可以推出存在依概率1收斂的子列 $(k_{n})$ ^[5]：
$X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{k_{n}}\ {\xrightarrow {a.s.}}\ X$
依概率收斂可以推出依分布收斂^[4]：
$X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {d}}\ X$
對任意的 $r>0$ ， $\mathbf {L} ^{r}$ -收斂可以推出依概率收斂：
$X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X$
如果 $r>s\geqslant 1$ ，那麼 $\mathbf {L} ^{r}$ -收斂可以推出 $\mathbf {L} ^{s}$ -收斂：
$X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {L^{s}}}\ X,$
如果序列 $\left(X_{n};\,n\in \mathbb {N} \right)$ 依分布收斂到常數c，那麼它也依概率收斂到常數c^[4]：
$X_{n}\ {\xrightarrow {d}}\ c\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ c,$
如果序列 $\left(X_{n};\,n\in \mathbb {N} \right)$ 依分布收斂到隨機變量 $X$ ，並且 $X_{n}$ 和 $Y_{n}$ 的差依概率收斂到0，那麼 $Y_{n}$ 也依分布收斂到隨機變量 $X$ ^[4]：
$X_{n}\ {\xrightarrow {d}}\ X,\ \ |X_{n}-Y_{n}|\ {\xrightarrow {p}}\ 0\ \quad \Rightarrow \quad Y_{n}\ {\xrightarrow {d}}\ X$
如果序列 ( X n ; n ∈ N ) {\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)} 依分布收斂到隨機變量 X {\displaystyle X} ，並且序列 ( Y n ; n ∈ N ) {\displaystyle \left(Y_{n};\,n\in \mathbb {N} \right)} 依分布收斂到常數c，那麼向量列 ( ( X n , Y n ) ; n ∈ N ) {\displaystyle \left((X_{n},Y_{n});\,n\in \mathbb {N} \right)} 依分布收斂到隨機變量 ( X , c ) {\displaystyle (X,c)} [4]：
X n → d X , Y n → d c ⇒ ( X n , Y n ) → d ( X , c ) {\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ Y_{n}\ {\xrightarrow {d}}\ c\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {d}}\ (X,c)}

參見

勒貝格控制收斂定理

單調收斂定理

參考資料

^ Dudley 2002，Chapter 9.2, page 287

^ Dudley 2002，第289頁

^ Romano & Siegel 1985，Example 5.26

^ 4.0 4.1 4.2 4.3 4.4 van der Vaart 1998，Theorem 2.7

^ Gut, Allan. Probability: A graduate course. Theorem 3.4: Springer. 2005. ISBN 0387228330.

參考書籍

Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya』acov; Wellner, Jon A. Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. 1998. ISBN 0387984739. 引文使用過時參數coauthors (幫助)

Billingsley, Patrick. Probability and Measure. Wiley Series in Probability and Mathematical Statistics 2nd. Wiley. 1986.

Billingsley, Patrick. Convergence of probability measures 2nd. John Wiley & Sons. 1999: 1–28. ISBN 0471197459.

Dudley, R.M. Real analysis and probability. Cambridge, UK: Cambridge University Press. 2002. ISBN 052180972X.

Grimmett, G.R.; Stirzaker, D.R. Probability and random processes 2nd. Clarendon Press, Oxford. 1992: 271–285. ISBN 0-19-853665-8. 引文使用過時參數coauthors (幫助)

Jacobsen, M. Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd. HCØ-tryk, Copenhagen. 1992: 18–20. ISBN 87-91180-71-6.

Ledoux, Michel; Talagrand, Michel. Probability in Banach spaces. Berlin: Springer-Verlag. 1991: xii+480. ISBN 3-540-52013-9. MR 1102015.

Romano, Joseph P.; Siegel, Andrew F. Counterexamples in probability and statistics. Great Britain: Chapman & Hall. 1985. ISBN 0412989018. 引文使用過時參數coauthor (幫助)

van der Vaart, Aad W.; Wellner, Jon A. Weak convergence and empirical processes. New York: Springer-Verlag. 1996. ISBN 0387946403. 引文使用過時參數coauthor (幫助)

van der Vaart, Aad W. Asymptotic statistics. New York: Cambridge University Press. 1998. ISBN 9780521496032.

Williams, D. Probability with Martingales. Cambridge University Press. 1991. ISBN 0521406056.

Wong, E.; Hájek, B. Stochastic Processes in Engineering Systems. New York: Springer–Verlag. 1985. 引文使用過時參數coauthors (幫助)

[1] Dudley 2002，Chapter 9.2, page 287

[2] Dudley 2002，第289頁

[3] Romano & Siegel 1985，Example 5.26

[vdv2-4] 4.0 ^4.1 ^4.2 ^4.3 ^4.4 van der Vaart 1998，Theorem 2.7

[5] Gut, Allan. Probability: A graduate course. Theorem 3.4: Springer. 2005. ISBN 0387228330.

[1]

[2]

[3]

[4]

[5]

隨機變量的收斂

簡介

依概率1收斂

依概率收斂

性質

平方平均收斂與 L p {\displaystyle \mathbf {L} ^{p}} 收斂

依分布收斂

性質

關係

參見

參考資料

參考書籍

平方平均收斂與 $\mathbf {L} ^{p}$ 收斂