費沙正確概率檢驗

費沙正確概率檢定(英文:Fisher's exact test),或稱費沙精確檢定,是統計學中的一種假設檢定,用於檢驗列聯表英語Contingency table顯著性差異,由羅納德·愛爾默·費沙於1935年所創。[1][2][3]實務中,該方法常用於樣本數較小的情況,但其實不限於小樣本情況。它屬於一種精確檢定英語Exact test,也就是其p值可以由虛無假說的分佈實際計算而不是藉由足夠的樣本數逼近一個特定的概率分佈。

據說,費沙根據繆麗·布里斯托英語Muriel Bristol女士聲稱能夠區別奶茶是先加了茶還是牛奶而設計了這項檢定。他在女士品茶實驗中亦實作了這項檢定。[4]

目的與使用情境

編輯
 
受測者是否能夠區別沖泡完成的奶茶是先加茶還是先加牛奶?

此檢定在考驗兩種分類結果所產生的類別型變數很有用;它用於檢查兩種分類結果之間的關聯(偶然性)是否顯著。在費沙的原始例題中,一個分類結果是奶茶實際上的沖泡方式(先加牛奶還是茶),另一個分類標準是繆麗·布里斯托英語Muriel Bristol認定的沖泡方式,並使用本方法檢驗這兩種分類結果是否具有關聯(受測者是否真的可以分辨出先倒入的是牛奶還是茶)。如同女士品茶實驗,此檢定大多數使用於2 × 2列聯表(如下所述)。最終求得的p值是基於列聯表邊際是固定的,也就是受測者明確知曉八杯茶中有四杯先加牛奶,因此必然只會挑出四杯。這導致表格單元格中數字在獨立性虛無假說下服從超幾何分佈

若樣本數較大,一般使用卡方檢定G檢定英語G-test,其統計量近似於卡方分佈。在樣本數較小或是表格中次數差異很大的情況,這樣的大樣本近似方法不適用。通常可以預先檢查表格中各細格的期望值是否皆大於5(或是只有一格小於10)以決定可否使用基於卡方分佈的大樣本近似方法,雖然這樣的預先檢查已被認定為過度保守。[5]事實上,卡方近似方法的p值在過小、稀疏的或不平衡的數據與精確檢定的p值可能南轅北轍而導致相反結論。[6][7]相比之下,費沙精確檢定,正如其名稱所述,只要實驗過程保持行和列總和固定不變,它就是精確的,因此無論樣本特徵如何都可以使用。費沙的方法雖然使用於大樣本或平衡良好的表格會使計算變得困難,但幸運的是,這些正是卡方檢定適合的條件。

此檢定在2 × 2列聯表的情況下可以用手計算。然而,此方法其實可以擴展到m × n聯表的情況,[8]但計算並不容易,可改用統計軟件計算(其中有些使用蒙特卡羅方法來獲得p值的近似值)。[9]

此檢定還可用於量化兩組之間的「重疊程度」。例如,在統計遺傳學富集分析英語Gene set enrichment analysis中,可以為特定的表型加註一組基因(A)。使用者可以測試某些感興趣的基因組(B)與基因組A的重疊程度。在這種情況下,可以歸納成一個2 × 2列聯表以表示以下情況的次數:

  1. 同時存在於A基因組與B基因組的基因
  2. 僅存在於A的基因
  3. 僅存在於B的基因
  4. 同時不存在於A與B的基因

該測試的虛無假設是任一基因組的基因都來自更廣泛的基因集,再以費沙正確概率檢定檢驗是否顯着重疊。[10]

例題

編輯

以一群青少年樣本為例,一方面可以將樣本分為男性和女性,另一方面可以分為目前正在或尚未準備統計學考試。樣本中正在準備考試的女性多於男性,而目標是檢驗這項比例差異是否顯著。數據如下所示:

男性 女性 列總和
正在準備考試 1 9 10
尚未準備考試 11 3 14
欄總和 12 12 24

這些數據顯示這24名青少年中有10名正在準備考試,並且這24名青少年中有12名是女性。若虛無假說設定為男性和女性的學習比例是相等的,則這10名準備考試的青少年的性別分佈是否不同於尚未準備考試者?更具體的說,如果隨機選擇10位青少年,則能夠抽出12位女性中的9位(或更多)女性而12名男性中只抽出1位(或更少)的概率是多少?

在進行檢驗之前介紹一些符號:以字母abcd表示各細格中的次數,將跨行和跨列的總計稱為邊際總計,並用n表示總和數。所以上述表格可寫成:

男性 女性 列總和
正在準備考試 a b a + b
尚未準備考試 c d c + d
欄總和 a + c b + d a + b + c + d = n

費沙表明,以表格中列總和與欄總和皆被故定為條件,a超幾何分佈,其中a + ca+b成功和c+d失敗的總體中抽出。獲得這樣一組結果的概率由下式給出:[3]:136[11]

 

其中 二項式系數,符號「!」表示階乘運算。我們可以這樣理解:若已知所有的邊際總和(即a + bc + da + cb + d),則只剩下一個自由度,例如已知a則足以推導出其他數值。現在, 是從包含n個元素的更大集合中抽出不放回地隨機選擇a + c個元素時抽出a元素,這正是超幾何分佈的定義。由上述資料可得,

 

上面的公式給出了觀察這種特定數據排列的確切超幾何概率,其前提是男性和女性具有相同比例進行考試準備比例的虛無假說以及邊際總數為定值。換句話說,如果假設男性與女性準備考試的概率都是p,並且男性和女性都是獨立地被採樣,無論他們是否正在準備考試,那麼這個超幾何公式給出了在四個單元格中觀察次數abcd條件概率,其中的條件是已知的邊緣總數(也就是列與欄總數)。即使男性與女性以不同的概率抽出成為樣本(例如總體中性別比例不是1:1),這仍然是正確的。要求僅僅是兩個分類特徵(性別和是否準備考慮)互為獨立事件。例如,假設我們知道概率PQ分別表示男性與女性的邊際比例,概率pq分別表示有無準備考試的邊際比例,自然存在P + Q = 1與p + q = 1的事實,且性別和是否準備考慮互為獨立事件,則上述資料各性別與是否準備考試的概率則分別為

  • 已準備考試的男性概率:PQ
  • 已準備考試的女性概率:pQ
  • 未準備考試的男性概率:Pq
  • 未準備考試的女性概率:pq

之後,若計算給定邊緣條件的分佈,將可獲得上述的公式,其中pP都不在式中。因此24名青少年任意排列到表的四個單元格中的確切概率是可以計算的。費沙表明,統計顯著性的計算只需要考慮邊際總和與觀測結果相同或更極端的情況即可。(巴納德檢定英語Barnard's test則放寬了對一組邊際總數的限制。)在該示例中,有11種排列方式與上述數據在相同的方向上更為極端,並可以簡化為1種組合(如下表):

男性 女性 列總和
正在準備考試 0 10 10
尚未準備考試 12 2 14
欄總和 12 12 24

而發生這組資料的概率(在相同前提下)為  

虛無假說為真可以得到單尾檢定英語One- and two-tailed tests的p值,即目前資料及更極端的資料的概率總和,約等於0.001346076 + 0.000033652 = 0.001379728。在R語言環境下,這個值可以藉由fisher.test(rbind(c(1,9),c(11,3)),alternative="less")$p.value,或者在Python中使用scipy.stats.fisher_exact(table=[[1,9],[11,3]], alternative="less")獲取。該p值可以解釋為觀察數據(或任何更極端的表格)為虛無假說(男性和女性準備考試的比例沒有差異)提供的證據總和。當p值越小,拒絕原假設的證據越多;因此例題中的數據強烈地表明男性和女性準備考試的可能性並不相同。

若考慮的是雙尾檢定英語One- and two-tailed tests,則需要額外考慮同樣極端但方向相反的表格,即對稱於目前資料方向的拒絕域。然而,此時「對稱處更極端的表格」並沒有唯一的定義。R語言提供的fisher.test函數採用的方法是對所有概率小於或等於目前資料概率的總和來計算p值,因此雙尾檢定的p值不一定是單尾檢定的二倍(特別是小樣本的情況),與其它具有對稱性的概率分佈不同。

如上所述,太多數現代統計軟件英語List of statistical software可以計算費沙精確檢定的顯著性,但此時可改以卡方分佈的近似方法,[12]或是利用Γ函數或對數Γ函數。[13]當樣本數很大或欄列數超過2時,計算費沙檢定是困難的,例如過程中面對過大的階乘。[14]但隨個人電腦記算能力的進步,主流統計軟件英語List of statistical software(諸如SPSS[15]SAS[16]R語言[17]、以及在Python語言環境使用SciPy工具包[18]等)已納入費沙法的計算程式。

爭議

編輯

儘管費沙的檢定方法能精確地計算p值,但一些作者認為它是保守的,也就是統計功效較低。[19][20][21]當離散統計量的特性與選用固定的顯著性水準二者結合後可能發生這樣的問題。[22][23]更準確地說,費沙檢定加總了在虛無假說成立時每種相同或更極端的表格之發生概率為p值,但由於所有表格的集合是離散的,可能不存在與實現情況相等的表格。若αe是小於5%的最大p值並存在於某些表格的集合,建議應預先測試有效的αe水準。對於小樣本量的清況,αe可能明顯低於5%。[19][20][21]雖然這種影響發生在任何離散統計數據中,但有人認為這一事實使費沙在邊際上的檢驗條件使問題更加複雜。[24]為了避免這個問題,許多作者在處理離散問題時不鼓勵使用固定的顯著性水準。[22][23]

以表格邊緣為條件的決定也存在爭議。[25][26]費沙檢定得出的p值來自以列邊際總和與欄邊際總和被固定。從這個意義上講,測試僅對條件分佈是精確的,而不是原始表格。在原始資料中,邊際總數可能因實驗而異而不適合使用費沙檢定。當邊際總和不固定時,可以考慮使用其他方法以獲得2 × 2表格的精確p值。例如,巴納德檢定英語Barnard's test允許隨機的邊際總和。然而,一些作者(包括後來的巴納德本人)批評了巴納德基於此性質的檢定。[22][23][26][22]他們認為邊際成功總數(即前先表格中的a + b)幾乎是輔助統計量英語ancillary statistic[23]幾乎不包含有關測試屬性的資訊。

從2 × 2表格中以邊際成功率為條件可能忽略了數據中關於未知勝算比英語Odds ratio的一些資訊。[27]邊際總數(幾乎)是輔助統計量的論點意味着,用於推斷這個勝算比的適當似然函數應該以邊際成功率為條件。[27]這種被忽略的資訊對於推論的目的是否重要仍有爭論。[27]

替代方法

編輯

巴納德檢定英語Barnard's test可用於代替費沙檢定,[28]特別是在2 × 2表格的情況有更高的統計功效。[29]此外,博世路檢定英語Boschloo's test是另一種精確檢定,亦比費沙檢定具有更高的統計功效。[30]

對於階層式的類別資料,必須使用諸如CMH檢定英語Cochran–Mantel–Haenszel statistics等考慮採樣階層的方法,而不是費沙檢定。

根據給定邊際成功率的勝算比的條件分佈可以提出基於似然比檢定英語Likelihood-ratio test的p值。[27]此p值在推論上與正態分佈數據的經典檢定以及基於此條件似然函數的似然比和支持區間一致,並可在R語言上進行運算。[31]

相關條目

編輯

參考文獻

編輯
  1. ^ Fisher, R. A. On the Interpretation of χ2 from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society. 1922-01, 85 (1) [2022-12-22]. doi:10.2307/2340521. (原始內容存檔於2023-07-21). 
  2. ^ Fisher, Ronald Aylmer, Sir. Statistical methods for research workers. 14th, rev. and enl. Darien, Conn.,: Hafner Pub. Co. 1970. ISBN 0-05-002170-2. OCLC 135627. 
  3. ^ 3.0 3.1 Agresti, Alan. A Survey of Exact Inference for Contingency Tables. Statistical Science. 1992-02-01, 7 (1) [2022-12-22]. ISSN 0883-4237. doi:10.1214/ss/1177011454. (原始內容存檔於2023-05-30). 
  4. ^ Newman, James R. Mathematics of a Lady Tasting Tea. The world of mathematics. Mineola, N.Y.: Dover Publications. 2000 [2022-12-22]. ISBN 978-0-486-41153-8. OCLC 43555029. (原始內容存檔於2022-05-05). 
  5. ^ Larntz, Kinley. Small-Sample Comparisons of Exact Levels for Chi-Squared Goodness-of-Fit Statistics. Journal of the American Statistical Association. 1978-06, 73 (362) [2022-12-22]. ISSN 0162-1459. doi:10.1080/01621459.1978.10481567. (原始內容存檔於2023-01-13) (英語). 
  6. ^ Mehta, Cyrus R.; Patel, Nitin R.; Tsiatis, Anastasios A. Exact Significance Testing to Establish Treatment Equivalence with Ordered Categorical Data. Biometrics. 1984-09, 40 (3) [2022-12-22]. doi:10.2307/2530927. (原始內容存檔於2022-12-21). 
  7. ^ Patel, Nitin R.; SPSS Inc. SPSS exact tests 6.1 for Windows. Chicago, Ill.: SPSS Inc. 1995. ISBN 0-13-450891-2. OCLC 34436454. 
  8. ^ Mehta, Cyrus R.; Patel, Nitin R. A Network Algorithm for Performing Fisher's Exact Test in r × c Contingency Tables. Journal of the American Statistical Association. 1983-06, 78 (382) [2022-12-22]. doi:10.2307/2288652. (原始內容存檔於2022-12-21). 
  9. ^ Mehta, Cyrus R.; Patel, Nitin R. ALGORITHM 643: FEXACT: a FORTRAN subroutine for Fisher's exact test on unordered r×c contingency tables. ACM Transactions on Mathematical Software. 1986-06, 12 (2) [2022-12-22]. ISSN 0098-3500. doi:10.1145/6497.214326. (原始內容存檔於2023-07-21) (英語). 
  10. ^ Mi, Huaiyu; Muruganujan, Anushya; Casagrande, John T; Thomas, Paul D. Large-scale gene function analysis with the PANTHER classification system. Nature Protocols. 2013-08, 8 (8) [2022-12-22]. ISSN 1754-2189. PMC 6519453 . PMID 23868073. doi:10.1038/nprot.2013.092. (原始內容存檔於2022-11-05) (英語). 
  11. ^ Weisstein, Eric W. (編). Fisher's Exact Test. at MathWorld--A Wolfram Web Resource. Wolfram Research, Inc. [2022-12-26] (英語). 
  12. ^ Zar, Jerrold H. More on Dichotomous Variables. Biostatistical analysis : books a la carte edition.. [Place of publication not identified]: Prentice Hall. 2010. ISBN 0-321-65686-5. OCLC 945142430. 
  13. ^ Zar, Jerrold H. A fast and efficient algorithm for the Fisher exact test. Behavior Research Methods, Instruments, & Computers. 1987-07, 19 (4). ISSN 0743-3808. doi:10.3758/BF03202590 (英語). 
  14. ^ Warner, Pamela. Testing association with Fisher's Exact test. Journal of Family Planning and Reproductive Health Care. 2013-09-23, 39 (4). ISSN 1471-1893. doi:10.1136/jfprhc-2013-100747. 
  15. ^ Mehta, Cyrus R.; Patel, Nitin R. Unordered R x C Contingency Tables. IBM SPSS Exact Tests. Armonk, NY: IBM Corporation. 2011. 
  16. ^ Davis, Charles S.; Koch, Gary G.; SAS Institute. The 2 × 2 Table. Categorical data analysis using SAS 3rd. Cary, N.C.: SAS Instute. 2012. ISBN 978-1-61290-090-2. OCLC 806311987. 
  17. ^ R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. 2022 [2022-12-27]. (原始內容存檔於2023-10-05). 
  18. ^ The SciPy community. scipy.stats.fisher_exact. SciPy documentation. [2022-12-27]. (原始內容存檔於2023-06-10) (英語). 
  19. ^ 19.0 19.1 Liddell, Douglas. Practical Tests of 2 × 2 Contingency Tables. The Statistician. 1976-12, 25 (4). doi:10.2307/2988087. 
  20. ^ 20.0 20.1 Berkson, Joseph. In dispraise of the exact test. Journal of Statistical Planning and Inference. 1978-01, 2 (1) [2022-12-22]. doi:10.1016/0378-3758(78)90019-8. (原始內容存檔於2022-06-18) (英語). 
  21. ^ 21.0 21.1 D'Agostino, Ralph B.; Chase, Warren; Belanger, Albert. The Appropriateness of Some Common Procedures for Testing the Equality of Two Independent Binomial Populations. The American Statistician. 1988-08, 42 (3) [2022-12-22]. doi:10.2307/2685002. (原始內容存檔於2022-12-22). 
  22. ^ 22.0 22.1 22.2 22.3 Yates, F. Test of Significance for 2 × 2 Contingency Tables. Journal of the Royal Statistical Society. Series A (General). 1984, 147 (3). doi:10.2307/2981577. 
  23. ^ 23.0 23.1 23.2 23.3 Little, Roderick J. A. Testing the Equality of Two Independent Binomial Proportions. The American Statistician. 1989-11, 43 (4) [2022-12-22]. doi:10.2307/2685390. (原始內容存檔於2022-12-22). 
  24. ^ Mehta, Cyrus R.; Senchaudhuri, Pralay. Conditional versus unconditional exact tests for comparing two binomials (PDF). 2003-09-04 [2009-11-20]. (原始內容存檔 (PDF)於2022-12-21). 
  25. ^ Barnard, G. A. A New Test for 2 × 2 Tables. Nature. 1945-08, 156 (3954) [2022-12-22]. ISSN 0028-0836. doi:10.1038/156177a0. (原始內容存檔於2022-12-22) (英語). 
  26. ^ 26.0 26.1 Fisher, R. A. A New Test for 2 × 2 Tables. Nature. 1945-09, 156 (3961) [2022-12-22]. ISSN 0028-0836. doi:10.1038/156388a0. (原始內容存檔於2023-07-21) (英語). 
  27. ^ 27.0 27.1 27.2 27.3 Choi, Leena; Blume, Jeffrey D.; Dupont, William D. Olivier, Jake , 編. Elucidating the Foundations of Statistical Inference with 2 x 2 Tables. PLOS ONE. 2015-04-07, 10 (4). ISSN 1932-6203. PMC 4388855 . PMID 25849515. doi:10.1371/journal.pone.0121263 (英語). 
  28. ^ Lydersen, Stian; Fagerland, Morten W.; Laake, Petter. Recommended tests for association in 2×2 tables. Statistics in Medicine. 2009-03-30, 28 (7) [2022-12-22]. doi:10.1002/sim.3531. (原始內容存檔於2022-12-22) (英語). 
  29. ^ Berger R.L. Power comparison of exact unconditional tests for comparing two binomial proportions. Institute of Statistics Mimeo Series No. 2266. 1994: 1–19. 
  30. ^ Boschloo, R. D. Raised conditional level of significance for the 2 × 2-table when testing the equality of two probabilities. Statistica Neerlandica. 1970-03, 24 (1) [2022-12-22]. ISSN 0039-0402. doi:10.1111/j.1467-9574.1970.tb00104.x. (原始內容存檔於2022-12-22) (英語). 
  31. ^ Choi, Leena. ProfileLikelihood: profile likelihood for a parameter in commonly used statistical models; 2011. R package version 1.1.. 2011 [2022-12-22]. (原始內容存檔於2022-12-21). 

外部連結

編輯