统计学里,“Phi相关系数”(英语:Phi coefficient)(符号表示为:)是测量两个二元变量(英语:binary variables or dichotomous variables)之间相关性的工具,由卡尔·皮尔逊所发明 [1]。他也发明了与Phi相关系数有密切关联的皮尔逊卡方检验(英语:Pearson's chi-squared test。一般所称的卡方检验,若未明指种类,即指此),以及发明了测量两个连续变量之间相关程度的皮尔逊积差相关系数(英语:Pearson's r。一般所称的相关系数,若未明指种类,即指此)。

Phi 相关系数机器学习的领域又称为Matthews相关系数英语Matthews correlation coefficient

定义

编辑

首先将两个变量排成2×2列联表英语contingency table,注意 1 和 0 的位置必须如同下表,若只变动 X 或只变动 Y 的 0/1 位置,计算出来的Phi相关系数会正负号相反。Phi相关系数的基本概念是:两个二元变量的观察值若大多落在2×2列联表的“主对角线”(英语:diagonal:左上-右下线)栏位,亦即若观察值大多为   这两种组合,则这两个变量呈正相关。反之,若两个二元变量的观察值大多落在“非对角线”(英语:off-diagonal:主对角线以外的位置)栏位,对应于2×2列联表,亦即若观察值大多为   这两种组合,则这两个变量呈负相关。例如我们从两个随机二元变量(X, Y)抽样得出这样的2×2列联表:

y = 1 y = 0 总计
x = 1      
x = 0      
总计      

其中 n11, n10, n01, n00都是非负数的栏位计次值,它们加总为   ,亦即观察值的个数。由上面的表格可以得出 X 和 Y 的 Phi相关系数如下:

 

实例

编辑

研究者欲观察性别与惯用手的相关性。零假设是:性别与惯用手无相关性。观察对象是随机抽样出来的个人,身上有两个二元变量(性别 X ,惯用手 Y),X 有两种结果值(男=1/女=0),Y也有两种结果值(右撇子=1/左撇子=0)。

观察两个二元变量的相关性可以使用Phi相关系数。假设简单随机抽样100人,得出如下的2×2列联表:

男=1 女=0 总计
右=1 43 44 87
左=0 9 4 13
总计 52 48 100

本例的Phi相关系数:

 

本处暂不介绍Phi相关系数的显著性检验,仅简介其诠释:假设−0.133的相关系数检验为显著,在本例对变量 1/0 的指定下,代表身为男性与身为右撇子有轻微的负相关,也就是男性右撇子的比例略低于女性右撇子的比例;或者反过来说,男性左撇子的比例略高于女性左撇子的比例。

与Pearson相关系数的异同

编辑

“Phi相关系数”与“Pearson相关系数”在诠释上非常类似;事实上,使用Pearson相关系数来计算两个二元变量(各输入成1/0)之间的相关性时,就会得出Phi相关系数[2]

尽管Phi相关系数只是把Pearson相关系数简化为两个二元变量的情况,但诠释这两种相关系数时仍必须注意其差别。Pearson相关系数的值从−1 到 +1,±1 是其两个端点,指出完全正相关与完全负相关,0则是无相关。Phi相关系数的极值则受到两个变量各别的二元结果比例所影响,当两个变量的二元结果都是50:50时,Phi值才会从−1 到 +1。[3]

与Pearson卡方统计值的关系

编辑

一个2×2列联表英语contingency table卡方统计值 ),与Phi相关系数呈下述关系[4]

 
其中   是观察值的个数。

亦参见

编辑

注脚

编辑
  1. ^ Cramer, H. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press, p282 (second paragraph). ISBN 0-691-08004-6
  2. ^ Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
  3. ^ 详见:Davenport, E., & El-Sanhury, N. (1991). Phi/Phimax: Review and Synthesis. Educational and Psychological Measurement, 51, 821–828.
  4. ^ Everitt B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X