負二項分布(Negative binomial distribution)是統計學上一種描述在一系列獨立同分佈的伯努利試驗中,成功次數達到指定次數(記為)時失敗次數的離散機率分佈。比如,如果我們定義擲骰子隨機變量值為時成功,所有為失敗,這時我們反覆擲骰子直到1出現3次(成功次數),此時非1數字出現次數的機率分佈即為負二項分布。
負二項分布|
機率質量函數
|
參數 |
(實) (實) |
---|
值域 |
|
---|
機率質量函數 |
|
---|
累積分佈函數 |
|
---|
期望值 |
|
---|
眾數 |
|
---|
變異數 |
|
---|
偏度 |
|
---|
峰度 |
|
---|
動差母函數 |
|
---|
特徵函數 |
|
---|
帕斯卡分佈(Pascal distribution,來自布萊茲·帕斯卡 (Blaise Pascal))和波利亞分佈(Polya distribution,又稱罐子模型,來自喬治·波利亞 (George Pólya))均是負二項分布的特例。在工程、氣候等領域中經常用「負二項分布」或「帕斯卡分佈」來描述變量為整數的情況,而使用「波利亞分佈」來描述取到實數值的情況。
對於「相關的離散事件」("associated discrete events")的發生,例如龍捲風爆發,相比於泊松分佈,波利亞分佈由於允許其平均值和方差不同,而能夠給出更精確的模型。在流行病學中,它已被用於模擬傳染病的疾病傳播,其中可能的繼發感染數量可能因個體和環境而異[2]。 更一般地說,由於正協方差項,事件具有正相關的事件導致比獨立事件更大的方差可能是合適的。
「負二項分布」與「二項分佈」的區別在於:「二項分佈」是固定試驗總次數的獨立試驗中,成功次數k的分佈;而「負二項分布」是所有到r次成功時即終止的獨立試驗中,失敗次數k的分佈。
術語「負二項式」可能是因為出現在分佈的機率質量函數公式中的某個二項式系數可以用負數更簡單地寫出[3]。
當 是整數時的負二項分布又稱帕斯卡分佈,其機率質量函數為:
其中 是失敗的次數, 是成功的次數, 是事件成功的機率。在負二項分布的機率質量函數中,由於 次伯努利試驗為獨立同分佈,每個成功 次、失敗 次的事件的機率為 。由於第 次成功一定是最後一次試驗,所以應該在 次試驗中選擇 次成功,使用排列組合二項系數獲取所有可能的選擇數。
括號中為二項式系數表達式:
-
該表達式可以寫成帶負值參數的二項系數的形式,如下式所示,解釋了「負二項」名稱的來源:
-
帕斯卡分佈機率質量函數 對所有可能 值求和,一定等於1:
證明如下:
其中第三步用到了二項序列展開。
取 ,負二項分布等於幾何分佈。其機率質量函數為 。
舉例說,若我們擲骰子,擲到一即視為成功。則每次擲骰的成功率是 。要擲出三次一,所需的擲骰次數屬於集合{ 3, 4, 5, 6, ... }。擲到三次一的擲骰次數是負二項分布的隨機變量。要在第三次擲骰時,擲到第三次一,則之前兩次都要擲到一,其機率為 。注意擲骰是伯努利試驗,之前的結果不影響隨後的結果。
若要在第四次擲骰時,擲到第三次一,則之前三次之中要有剛好兩次擲到一,在三次擲骰中擲到2次1的機率為 。第四次擲骰要擲到一,所以要將前面的機率再乘 : 。
幾何分佈(在 { 0, 1, 2, 3, ... } 上)是負二項分布的一個特例,其中
-
- ^ DeGroot, Morris H. Probability and Statistics Second. Addison-Wesley. 1986: 258–259. ISBN 0-201-11366-X. LCCN 84006269. OCLC 10605205.
- ^ e.g. J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp, and W.M. Getz (2005), Superspreading and the effect of individual variation on disease emergence, Nature, 438, 355–359. doi:10.1038/nature04153
The overdispersion parameter is usually denoted by the letter in epidemiology, rather than as here.
- ^ Casella, George; Berger, Roger L. Statistical inference 2nd. Thomson Learning. 2002: 95. ISBN 0-534-24312-6.