概率分佈(英語:probability distribution)簡稱分佈,亦稱概率分配或分配,是概率論中的一個概念。
「Probability distribution」的各地常用名稱 |
---|
中國大陸 | 概率分布 |
---|
臺灣 | 機率分布、機率分配 |
---|
港澳 | 概率分佈 |
---|
日本、韓國漢字 | 確率分布 |
---|
使用時可以有以下兩種含義:
- 廣義地,它指稱:隨機變量的概率性質——當我們說概率空間中的兩個隨機變量X和Y具有同樣的分佈時,我們是無法用概率來區別他們的。換言之:
稱X和Y為同分佈的隨機變量,當且僅當對任意事件,有成立。
但是,不能認為同分佈的隨機變量是相同的隨機變量。事實上即使X與Y同分佈,也可以沒有任何點ω使得X(ω)=Y(ω)。在這個意義下,可以把隨機變量分類,每一類稱作一個分佈,其中的所有隨機變量都同分佈。用更簡要的語言來說,同分佈是一種等價關係,每一個等價類就是一個分佈。需注意的是,通常談到的離散分佈、均勻分佈、伯努利分佈、正態分佈、泊松分佈等,都是指各種類型的分佈,而不能視作一個分佈。
- 狹義地,它是指:隨機變量的概率分佈函數。設X是樣本空間上的隨機變量,為概率測度,則稱如下定義的函數是X的分佈函數,或稱累積分佈函數:
,對任意實數定義。
具有相同分佈函數的隨機變量一定是同分佈的,因此可以用分佈函數來描述一個分佈,但更常用的描述手段是概率密度函數。[註 1]
對於特定的隨機變量 ,其分佈函數 是單調不減及右連續,而且 , 。這些性質反過來也描述了所有可能成為分佈函數的函數:
- 設 且單調不減、右連續,則存在概率空間 及其上的隨機變量 X ,使得 F 是 X 的分佈函數,即
設 為概率測度, 為隨機變量,則函數
稱為 的概率分佈函數。如果將 看成是數軸上的隨機點的坐標,那麼,分佈函數 在 處的函數值就表示 落在區間 上的概率。
例如,設隨機變量 為擲兩次骰子所得的點數差,而整個樣本空間由 36 個元素組成。
數量
|
( i , j )∈ S
|
|
|
|
6 |
( 1,1 ),( 2,2 ),( 3,3 ) ( 4,4 ),( 5,5 ),( 6,6 ) |
0 |
6/36 |
6/36
|
10 |
( 1,2 ),( 2,3 ) ( 3,4 ),( 4,5 ),( 5,6 ) ( 2,1 ),( 3,2 ),( 4,3 ) ( 5,4 ),( 6,5 ) |
1 |
10/36 |
16/36
|
8 |
( 1,3 ),( 2,4 ),( 3,5 ) ( 4,6 ),( 3,1 ),( 4,2 ) ( 5,3 ),( 6,4 ) |
2 |
8/36 |
24/36
|
6 |
( 1,4 ),( 2,5 ),( 3,6 ) ( 4,1 ),( 5,2 ),( 6,3 ) |
3 |
6/36 |
30/36
|
4 |
( 1,5 ),( 2,6 ) ( 5,1 ),( 6,2 ) |
4 |
4/36 |
34/36
|
2 |
( 1,6 ),( 6,1 ) |
5 |
2/36 |
36/36
|
其分佈函數是:
-
上面所列舉的例子屬於離散分佈,即分佈函數的值域是離散的,比如只取整數值的隨機變量就是屬於離散分佈的。 表示隨機變量 的概率值。如果X的取值只有 ,則:
-
-
其他常見的離散概率分佈族有:
二項分佈是最重要的離散概率分佈之一,由瑞士數學家雅各布·伯努利所發展,一般用二項分佈來計算概率的前提是,每次抽出樣品後再放回去,並且只能有兩種試驗結果,比如黑球或紅球,正品或次品等。二項分佈指出,隨機一次試驗出現的概率如果為 ,那麼在 次試驗中出現 次的概率為:
-
例如,在擲3次骰子中,不出現6點的概率是:
在連續兩次的輪盤遊戲中,至少出現一次紅色的概率為:
二項分佈在 時表現出圖像的對稱性,而在 取其它值時是非對稱的。另外二項分佈的期望值 ,以及方差
作為離散概率分佈的超幾何分佈尤其指在抽樣試驗時抽出的樣品不再放回去的分佈情況。在一個容器中一共有 個球,其中 個黑球, 個紅球,通過下面的超幾何分佈公式可以計算出,從容器中抽出的 個球中(抽出的球不放回去)有 個黑球的概率是多少:
-
例如,容器中一共10個球,其中6個黑色,4個白色,一共抽5次(抽出的球不放回去),在這5個球中有3個黑球的概率是:
與二項式分佈不同的是,在超幾何分佈中,特別強調的是抽出的樣品在下一次抽取前不再放回去,但是如果抽取的次數 和總共樣品數 相比很小(大約 ),這時在計算上二項分佈和超幾何分佈相互間則沒有主要的區別,此時人們更願意採用二項分佈的方法,因為在數學計算上二項分佈要簡單一些。
Poisson近似是二項分佈的一種極限形式。其強調如下的試驗前提:一次抽樣的概率值 相對很小,而抽取次數 值又相對很大。因此泊松分佈又被稱之為罕有事件分佈。泊松分佈指出,如果隨機一次試驗出現的概率為 ,那麼在 次試驗中出現 次的概率按照泊松分佈應該為:
-
其中,數學常數 (自然對數的底數)
例如,某工廠在生產零件時,每200個成品中會有1個次品,那麼在100個零件中最多出現2個次品的概率按照泊松分佈應該是:
在實踐中如果遇到 值很大導致二項分佈難於計算時,可以考慮使用泊松分佈,但前提是 必須趨於一個有限極限[來源請求]。採用泊松分佈的一個不太嚴格的規則(通過展開二項分佈,並在形式上化簡為類似泊松分佈後,利用極限化簡即可得)[來源請求]是:
-
-
設 是具有分佈函數 的連續隨機變量,且F的一階導數處處存在,則其導函數
-
稱為 的概率密度函數。
每個概率密度函數都有如下性質:
-
-
第一個性質表明,概率密度函數與 軸形成的區域的面積等於1,第二個性質表明,連續隨機變量在區間 的概率值等於密度函數在區間 上的積分,也即是與 軸在 內形成的區域的面積。因為 ,且 是 的導數,因此按照積分原理不難推出上面兩個公式。
正態分佈、指數分佈、 -分佈, -分佈以及 -分佈都是連續分佈。
常見的連續概率分佈族有:
連續隨機變量的概率密度函數如果是如下形式,
-
那麼這個連續分佈被稱之為正態分佈,或者高斯分佈。其密度函數的曲線呈對稱鐘形,因此又被稱之為鐘形曲線,其中 是平均值, 是標準差。正態分佈是一種理想分佈,許多典型的分佈,比如成年人的身高,汽車輪胎的運轉狀態,人類的智商值(IQ),都屬於或者說至少接近正態分佈。同樣按照連續分佈的定義,正態概率密度函數具有和普通概率密度函數類似的性質:
-
-
如果給出一個正態分佈的平均值 以及標準差 ,可以根據上面的第二個公式計算出任一區間的概率分佈情況。但是如上的計算量是相當龐大的,沒有計算機的輔助基本是不可能的,解決這一問題的方法是藉助 -轉換以及標準正態分佈表格( -表格)。
中間值 以及標準差 的正態分佈被稱之為標準正態分佈,其累積分佈函數是
-
將普通形式的正態分佈轉換到標準正態分佈的方法是
-
例如,已知 服從正態分佈,且 , ,求區間概率值 。計算過程如下:
設另一隨機變量 ,則 服從標準正態分佈,且
-
所以
-
其中 值通過查 -表格獲得。
在離散分佈中如果試驗次數 值非常大,而且單次試驗的概率 值又不是很小的情況下,正態分佈可以用來近似的代替二項分佈。一個粗略的使用正態分佈的近似規則是: 。
從二項分佈中獲得 和 值的方法是
- 期望值
- 標準差
如果 ,則必須採用下面的近似修正方法:
-
(註: ;EF:二項分佈;ZF:正態分佈)
上(下)臨界值分別增加(減少)修正值0.5的目的是在 值很大時獲得更精確的近似值,只有 很小時,修正值0.5可以不被考慮。
例如,隨機試驗為連續64次擲硬幣,獲得的國徽數位於32和42之間的概率是多少?用正態分佈計算如下,
-
-
,符合近似規則,應用 -轉換:
-
-
在運用 -表格時注意到利用密度函數的對稱性來求出 為負值時的區域面積。