辛普森悖論
数据统计悖论
此條目可參照英語維基百科相應條目來擴充。 (2020年4月25日) |
辛普森悖論(英語:Simpson's paradox),是機率和統計中的一種現象,其中趨勢出現在幾組數據中,但當這些組被合併後趨勢消失或反轉。 這個結果在社會科學和醫學科學統計中經常遇到[1][2][3], 當頻率數據被不恰當地給出因果解釋時尤其成問題[4]。當干擾變數和因果關係在統計建模中得到適當處理時,這個悖論就可以得到解決[4][5]。 辛普森悖論已被用來說明統計誤用可能產生的誤導性結果[6][7]。
該現象於20世紀初就有人討論,但一直到1951年,愛德華·H·辛普森在他發表的論文中闡述此一現象後,該現象才算正式被描述解釋。後來就以他的名字命名此悖論,即辛普森悖論。此悖論的最終原因和選擇偏差、倖存者偏差、以及柏克森悖論一樣,是源自對撞因子(存疑!應為混淆變數(confounder))。
舉例
編輯一所美國高校的兩個學院,分別是法學院和商學院。新學期招生,人們懷疑這兩個學院有性別歧視。現作如下統計:
法學院
性別 | 錄取 | 拒收 | 總數 | 錄取比例 |
---|---|---|---|---|
男生 | 8 | 45 | 53 | 15.1% |
女生 | 51 | 101 | 152 | 33.6% |
合計 | 59 | 146 | 205 |
商學院
性別 | 錄取 | 拒收 | 總數 | 錄取比例 |
---|---|---|---|---|
男生 | 201 | 50 | 251 | 80.1% |
女生 | 92 | 9 | 101 | 91.1% |
合計 | 293 | 59 | 352 |
根據上面兩個表格來看,女生在兩個學院都被優先錄取,即女生的錄取比率較高。現在將兩學院的數據匯總:
性別 | 錄取 | 拒收 | 總數 | 錄取比例 |
---|---|---|---|---|
男生 | 209 | 95 | 304 | 68.8% |
女生 | 143 | 110 | 253 | 56.5% |
合計 | 352 | 205 | 557 |
在總評中,女生的錄取比率反而比男生低。
藉助一幅向量圖可以更好的了解情況(右圖)
這個例子說明,簡單的將分組數據相加匯總,是不能反映真實情況的。
就上述例子說,導致辛普森悖論有兩個前提。
- 兩個分組的錄取率相差很大,就是說法學院錄取率很低,而商學院卻很高。而同時兩種性別的申請者分布比重相反。女性申請者的大部分分布在法學院,相反,男性申請者大部分分布於商學院。結果在數量上來說,拒收率高的法學院拒收了很多的女生,男生雖然有更高的拒收率,但被拒收的數量卻相對不算多。而錄取率很高的商學院錄取了很多男生,使得最後匯總的時候,男生在數量上反而占優。
- 有潛在因素影響著錄取情況。就是說,性別並非是錄取率高低的唯一因素,甚至可能是毫無影響的。至於在學院中出現的比率差,可能是隨機事件。又或者是其他因素作用,比如入學成績,卻剛好出現這種錄取比例,使人誤認為這是由性別差異而造成的。
為了避免辛普森悖論的出現,就需要斟酌各分組的權重,並乘以一定的係數去消除以分組數據基數差異而造成的影響。同時,我們必需清楚了解情況,以綜合考慮是否存在造成此悖論的潛在因素。
相關條目
編輯參考文獻
編輯Skript zur Statistik in der Naturwissenschaften(Gerhard Osius, Universität Bremen)
- ^ Clifford H. Wagner. Simpson's Paradox in Real Life. The American Statistician. February 1982, 36 (1): 46–48. JSTOR 2684093. doi:10.2307/2684093.
- ^ Holt, G. B. (2016). Potential Simpson's paradox in multicenter study of intraperitoneal chemotherapy for ovarian cancer. (頁面存檔備份,存於網際網路檔案館) Journal of Clinical Oncology, 34(9), 1016–1016.
- ^ Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai. Post-transcriptional regulation across human tissues. PLOS Computational Biology. 2017, 13 (5): e1005535. Bibcode:2017PLSCB..13E5535F. ISSN 1553-7358. PMC 5440056 . PMID 28481885. arXiv:1506.00219 . doi:10.1371/journal.pcbi.1005535.
- ^ 4.0 4.1 Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.
- ^ Kock, N., & Gaskins, L. (2016). Simpson's paradox, moderation and the emergence of quadratic relationships in path models: An information systems illustration. (頁面存檔備份,存於網際網路檔案館) International Journal of Applied Nonlinear Science, 2(3), 200–234.
- ^ Robert L. Wardrop (February 1995). "Simpson's Paradox and the Hot Hand in Basketball". The American Statistician, 49 (1): pp. 24–28.
- ^ Alan Agresti (2002). "Categorical Data Analysis" (Second edition). John Wiley and Sons ISBN 0-471-36093-7