統計學裏,「Phi相關系數」(英語:Phi coefficient)(符號表示為:)是測量兩個二元變量(英語:binary variables or dichotomous variables)之間相關性的工具,由卡爾·皮爾森所發明 [1]。他也發明了與Phi相關系數有密切關聯的皮爾森卡方檢驗(英語:Pearson's chi-squared test。一般所稱的卡方檢驗,若未明指種類,即指此),以及發明了測量兩個連續變量之間相關程度的皮爾森積差相關系數(英語:Pearson's r。一般所稱的相關系數,若未明指種類,即指此)。

Phi 相關系數機器學習的領域又稱為Matthews相關系數英語Matthews correlation coefficient

定義

編輯

首先將兩個變量排成2×2列聯表英語contingency table,注意 1 和 0 的位置必須如同下表,若只變動 X 或只變動 Y 的 0/1 位置,計算出來的Phi相關系數會正負號相反。Phi相關系數的基本概念是:兩個二元變量的觀察值若大多落在2×2列聯表的「主對角線」(英語:diagonal:左上-右下線)欄位,亦即若觀察值大多為   這兩種組合,則這兩個變量呈正相關。反之,若兩個二元變量的觀察值大多落在「非對角線」(英語:off-diagonal:主對角線以外的位置)欄位,對應於2×2列聯表,亦即若觀察值大多為   這兩種組合,則這兩個變量呈負相關。例如我們從兩個隨機二元變量(X, Y)抽樣得出這樣的2×2列聯表:

y = 1 y = 0 總計
x = 1      
x = 0      
總計      

其中 n11, n10, n01, n00都是非負數的欄位計次值,它們加總為   ,亦即觀察值的個數。由上面的表格可以得出 X 和 Y 的 Phi相關系數如下:

 

實例

編輯

研究者欲觀察性別與慣用手的相關性。虛無假設是:性別與慣用手無相關性。觀察對象是隨機抽樣出來的個人,身上有兩個二元變量(性別 X ,慣用手 Y),X 有兩種結果值(男=1/女=0),Y也有兩種結果值(右撇子=1/左撇子=0)。

觀察兩個二元變量的相關性可以使用Phi相關系數。假設簡單隨機抽樣100人,得出如下的2×2列聯表:

男=1 女=0 總計
右=1 43 44 87
左=0 9 4 13
總計 52 48 100

本例的Phi相關系數:

 

本處暫不介紹Phi相關系數的顯著性檢驗,僅簡介其詮釋:假設−0.133的相關系數檢驗為顯著,在本例對變量 1/0 的指定下,代表身為男性與身為右撇子有輕微的負相關,也就是男性右撇子的比例略低於女性右撇子的比例;或者反過來說,男性左撇子的比例略高於女性左撇子的比例。

與Pearson相關系數的異同

編輯

「Phi相關系數」與「Pearson相關系數」在詮釋上非常類似;事實上,使用Pearson相關系數來計算兩個二元變量(各輸入成1/0)之間的相關性時,就會得出Phi相關系數[2]

儘管Phi相關系數只是把Pearson相關系數簡化為兩個二元變量的情況,但詮釋這兩種相關系數時仍必須注意其差別。Pearson相關系數的值從−1 到 +1,±1 是其兩個端點,指出完全正相關與完全負相關,0則是無相關。Phi相關系數的極值則受到兩個變量各別的二元結果比例所影響,當兩個變量的二元結果都是50:50時,Phi值才會從−1 到 +1。[3]

與Pearson卡方統計值的關係

編輯

一個2×2列聯表英語contingency table卡方統計值 ),與Phi相關系數呈下述關係[4]

 
其中   是觀察值的個數。

亦參見

編輯

註腳

編輯
  1. ^ Cramer, H. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press, p282 (second paragraph). ISBN 0-691-08004-6
  2. ^ Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
  3. ^ 詳見:Davenport, E., & El-Sanhury, N. (1991). Phi/Phimax: Review and Synthesis. Educational and Psychological Measurement, 51, 821–828.
  4. ^ Everitt B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X