Phi相关系数

在统计学里，“Phi相关系数”（英语：Phi coefficient）（符号表示为： $\phi$ 或 $r_{\phi }$ ）是测量两个二元变数（英语：binary variables or dichotomous variables）之间相关性的工具，由卡尔·皮尔逊所发明 ^[1]。他也发明了与Phi相关系数有密切关联的皮尔逊卡方检验（英语：Pearson's chi-squared test。一般所称的卡方检验，若未明指种类，即指此），以及发明了测量两个连续变数之间相关程度的皮尔逊积差相关系数（英语：Pearson's r。一般所称的相关系数，若未明指种类，即指此）。

Phi 相关系数在机器学习的领域又称为Matthews相关系数（英语：Matthews correlation coefficient）。

定义

首先将两个变数排成2×2列联表（英语：contingency table），注意 1 和 0 的位置必须如同下表，若只变动 X 或只变动 Y 的 0/1 位置，计算出来的Phi相关系数会正负号相反。Phi相关系数的基本概念是：两个二元变数的观察值若大多落在2×2列联表的“主对角线”（英语：diagonal：左上－右下线）栏位，亦即若观察值大多为 $(X,Y)=(1,1),(0,0)$ 这两种组合，则这两个变数呈正相关。反之，若两个二元变数的观察值大多落在“非对角线”（英语：off-diagonal：主对角线以外的位置）栏位，对应于2×2列联表，亦即若观察值大多为 $(X,Y)=(0,1),(1,0)$ 这两种组合，则这两个变数呈负相关。例如我们从两个随机二元变数（X, Y）抽样得出这样的2×2列联表：

	y = 1	y = 0	总计
x = 1	$n_{11}$	$n_{10}$	$n_{1\bullet }$
x = 0	$n_{01}$	$n_{00}$	$n_{0\bullet }$
总计	$n_{\bullet 1}$	$n_{\bullet 0}$	$n$

其中 n₁₁, n₁₀, n₀₁, n₀₀都是非负数的栏位计次值，它们加总为 $n$ ，亦即观察值的个数。由上面的表格可以得出 X 和 Y 的 Phi相关系数如下：

\phi ={\frac {n_{11}n_{00}-n_{10}n_{01}}{\sqrt {n_{1\bullet }n_{0\bullet }n_{\bullet 0}n_{\bullet 1}}}}

实例

研究者欲观察性别与惯用手的相关性。零假设是：性别与惯用手无相关性。观察对象是随机抽样出来的个人，身上有两个二元变数（性别 X ，惯用手 Y），X 有两种结果值（男=1／女=0），Y也有两种结果值（右撇子=1／左撇子=0）。

观察两个二元变数的相关性可以使用Phi相关系数。假设简单随机抽样100人，得出如下的2×2列联表：

	男=1	女=0	总计
右=1	43	44	87
左=0	9	4	13
总计	52	48	100

本例的Phi相关系数：

\phi ={(43\times 4-44\times 9) \over {\sqrt {87\times 13\times 48\times 52}}}=-0.133

本处暂不介绍Phi相关系数的显著性检验，仅简介其诠释：假设−0.133的相关系数检验为显著，在本例对变数 1/0 的指定下，代表身为男性与身为右撇子有轻微的负相关，也就是男性右撇子的比例略低于女性右撇子的比例；或者反过来说，男性左撇子的比例略高于女性左撇子的比例。

与Pearson相关系数的异同

“Phi相关系数”与“Pearson相关系数”在诠释上非常类似；事实上，使用Pearson相关系数来计算两个二元变数（各输入成1/0）之间的相关性时，就会得出Phi相关系数^[2] 。

尽管Phi相关系数只是把Pearson相关系数简化为两个二元变数的情况，但诠释这两种相关系数时仍必须注意其差别。Pearson相关系数的值从−1 到 +1，±1 是其两个端点，指出完全正相关与完全负相关，0则是无相关。Phi相关系数的极值则受到两个变数各别的二元结果比例所影响，当两个变数的二元结果都是50:50时，Phi值才会从−1 到 +1。^[3]

与Pearson卡方统计值的关系

一个2×2列联表（英语：contingency table）的卡方统计值（ $\chi ^{2}$ ），与Phi相关系数呈下述关系^[4]：

\phi ^{2}={\frac {\chi ^{2}}{n}}

其中

n

是观察值的个数。

亦参见

Phi相关系数的网页版计算器（页面存档备份，存于互联网档案馆）（还有许多的基础统计教材和计算器）。
列联表（英语：Contingency table）
Matthews相关系数（英语：Matthews correlation coefficient）
Cramér's V（英语：Cramér's V (statistics)）：类别变数间相关性的另一个测量法。
Polychoric相关（英语：Polychoric correlation）：当两个连续变项被人为地改成二分变项时，求其相关性。其中一种是“四分相关（英语：Tetrachoric correlation）”。

注脚

^ Cramer, H. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press, p282 (second paragraph). ISBN 0-691-08004-6
^ Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
^ 详见：Davenport, E., & El-Sanhury, N. (1991). Phi/Phimax: Review and Synthesis. Educational and Psychological Measurement, 51, 821–828.
^ Everitt B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X

[1] Cramer, H. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press, p282 (second paragraph). ISBN 0-691-08004-6

[2] Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.

[3] 详见：Davenport, E., & El-Sanhury, N. (1991). Phi/Phimax: Review and Synthesis. Educational and Psychological Measurement, 51, 821–828.

[4] Everitt B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X

[1]

[2]

[3]

[4]