Phi相关系数
在统计学里,“Phi相关系数”(英语:Phi coefficient)(符号表示为: 或 )是测量两个二元变数(英语:binary variables or dichotomous variables)之间相关性的工具,由卡尔·皮尔逊所发明 [1]。他也发明了与Phi相关系数有密切关联的皮尔逊卡方检验(英语:Pearson's chi-squared test。一般所称的卡方检验,若未明指种类,即指此),以及发明了测量两个连续变数之间相关程度的皮尔逊积差相关系数(英语:Pearson's r。一般所称的相关系数,若未明指种类,即指此)。
Phi 相关系数在机器学习的领域又称为Matthews相关系数。
定义
编辑首先将两个变数排成2×2列联表,注意 1 和 0 的位置必须如同下表,若只变动 X 或只变动 Y 的 0/1 位置,计算出来的Phi相关系数会正负号相反。Phi相关系数的基本概念是:两个二元变数的观察值若大多落在2×2列联表的“主对角线”(英语:diagonal:左上-右下线)栏位,亦即若观察值大多为 这两种组合,则这两个变数呈正相关。反之,若两个二元变数的观察值大多落在“非对角线”(英语:off-diagonal:主对角线以外的位置)栏位,对应于2×2列联表,亦即若观察值大多为 这两种组合,则这两个变数呈负相关。例如我们从两个随机二元变数(X, Y)抽样得出这样的2×2列联表:
y = 1 | y = 0 | 总计 | |
---|---|---|---|
x = 1 | |||
x = 0 | |||
总计 |
其中 n11, n10, n01, n00都是非负数的栏位计次值,它们加总为 ,亦即观察值的个数。由上面的表格可以得出 X 和 Y 的 Phi相关系数如下:
实例
编辑研究者欲观察性别与惯用手的相关性。零假设是:性别与惯用手无相关性。观察对象是随机抽样出来的个人,身上有两个二元变数(性别 X ,惯用手 Y),X 有两种结果值(男=1/女=0),Y也有两种结果值(右撇子=1/左撇子=0)。
观察两个二元变数的相关性可以使用Phi相关系数。假设简单随机抽样100人,得出如下的2×2列联表:
男=1 | 女=0 | 总计 | |
---|---|---|---|
右=1 | 43 | 44 | 87 |
左=0 | 9 | 4 | 13 |
总计 | 52 | 48 | 100 |
本例的Phi相关系数:
本处暂不介绍Phi相关系数的显著性检验,仅简介其诠释:假设−0.133的相关系数检验为显著,在本例对变数 1/0 的指定下,代表身为男性与身为右撇子有轻微的负相关,也就是男性右撇子的比例略低于女性右撇子的比例;或者反过来说,男性左撇子的比例略高于女性左撇子的比例。
与Pearson相关系数的异同
编辑“Phi相关系数”与“Pearson相关系数”在诠释上非常类似;事实上,使用Pearson相关系数来计算两个二元变数(各输入成1/0)之间的相关性时,就会得出Phi相关系数[2] 。
尽管Phi相关系数只是把Pearson相关系数简化为两个二元变数的情况,但诠释这两种相关系数时仍必须注意其差别。Pearson相关系数的值从−1 到 +1,±1 是其两个端点,指出完全正相关与完全负相关,0则是无相关。Phi相关系数的极值则受到两个变数各别的二元结果比例所影响,当两个变数的二元结果都是50:50时,Phi值才会从−1 到 +1。[3]
与Pearson卡方统计值的关系
编辑一个2×2列联表的卡方统计值( ),与Phi相关系数呈下述关系[4]:
- 其中 是观察值的个数。
亦参见
编辑- Phi相关系数的网页版计算器(页面存档备份,存于互联网档案馆)(还有许多的基础统计教材和计算器)。
- 列联表
- Matthews相关系数
- Cramér's V:类别变数间相关性的另一个测量法。
- Polychoric相关:当两个连续变项被人为地改成二分变项时,求其相关性。其中一种是“四分相关”。
注脚
编辑- ^ Cramer, H. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press, p282 (second paragraph). ISBN 0-691-08004-6
- ^ Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
- ^ 详见:Davenport, E., & El-Sanhury, N. (1991). Phi/Phimax: Review and Synthesis. Educational and Psychological Measurement, 51, 821–828.
- ^ Everitt B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X