卡方分布(英语:chi-square distribution[2], χ²-distribution,或写作χ²分布)是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。
卡方分布
概率密度函数 |
累积分布函数 |
参数 |
自由度 |
---|
值域 |
, |
---|
概率密度函数 |
|
---|
累积分布函数 |
|
---|
期望 |
|
---|
中位数 |
|
---|
众数 |
max{ k − 2, 0 } |
---|
方差 |
|
---|
偏度 |
|
---|
峰度 |
|
---|
熵 |
|
---|
矩生成函数 |
, |
---|
特征函数 |
[1] |
---|
由卡方分布延伸出来皮尔逊卡方检验常用于:
- 样本某性质的比例分布与总体理论分布的拟合优度(例如某行政机关男女比是否符合该机关所在城镇的男女比);
- 同一总体的两个随机变量是否独立(例如人的身高与交通违规的关联性);
- 二或多个总体同一属性的同素性检验(意大利面店和寿司店的营业额有没有差距)。(详见皮尔逊卡方检验)
可以在文章右上角的表中看到更多卡方分布的性质。
卡方分布的概率密度函数为:
-
其中 ,当 时 。这里Γ代表Gamma函数。
卡方分布的累积分布函数为:
- ,
其中γ(k,z)为不完全Γ函数
在大多数涉及卡方分布的书中都会提供它的累积分布函数的对照表。此外许多表格计算软件如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函数。
自由度为k的卡方变量的平均值是k,方差是2k。
卡方分布是伽玛分布的一个特例,它的熵为:
-
其中 是双伽玛函数。
当Gamma变量 频率(λ)为1/2时,α的2倍为卡方变量之自由度。
即:
-
-
-
卡方变量之期望=自由度
卡方变量之方差=两倍自由度
由定义可得,独立卡方变量之和同样服从卡方分布。特别地,若 分别独立服从自由度为 的卡方分布,那么它们的和 服从自由度为 的卡方分布。
若k个随机变量 、……、 是相互独立,符合标准正态分布的随机变量,则它们与均值之间偏差的平方和
其中均值
它的平方正比于自由度为1的卡方分布,即
p-value = 1- p_CDF.
χ2越大,p-value越小,则可信度越高。通常用p=0.05作为阈值,即95%的可信度。
常用的χ2与p-value表如下:
自由度k \ P value (概率)
|
0.95
|
0.90
|
0.80
|
0.70
|
0.50
|
0.30
|
0.20
|
0.10
|
0.05
|
0.01
|
0.001
|
1
|
0.004
|
0.02
|
0.06
|
0.15
|
0.46
|
1.07
|
1.64
|
2.71
|
3.84
|
6.64
|
10.83
|
2
|
0.10
|
0.21
|
0.45
|
0.71
|
1.39
|
2.41
|
3.22
|
4.60
|
5.99
|
9.21
|
13.82
|
3
|
0.35
|
0.58
|
1.01
|
1.42
|
2.37
|
3.66
|
4.64
|
6.25
|
7.82
|
11.34
|
16.27
|
4
|
0.71
|
1.06
|
1.65
|
2.20
|
3.36
|
4.88
|
5.99
|
7.78
|
9.49
|
13.28
|
18.47
|
5
|
1.14
|
1.61
|
2.34
|
3.00
|
4.35
|
6.06
|
7.29
|
9.24
|
11.07
|
15.09
|
20.52
|
6
|
1.63
|
2.20
|
3.07
|
3.83
|
5.35
|
7.23
|
8.56
|
10.64
|
12.59
|
16.81
|
22.46
|
7
|
2.17
|
2.83
|
3.82
|
4.67
|
6.35
|
8.38
|
9.80
|
12.02
|
14.07
|
18.48
|
24.32
|
8
|
2.73
|
3.49
|
4.59
|
5.53
|
7.34
|
9.52
|
11.03
|
13.36
|
15.51
|
20.09
|
26.12
|
9
|
3.32
|
4.17
|
5.38
|
6.39
|
8.34
|
10.66
|
12.24
|
14.68
|
16.92
|
21.67
|
27.88
|
10
|
3.94
|
4.86
|
6.18
|
7.27
|
9.34
|
11.78
|
13.44
|
15.99
|
18.31
|
23.21
|
29.59
|