学生t检验

假說檢定的一種

司徒顿t 检定(英语:Student's t-test)是指虚无假说成立时的任一检定统计有司徒顿t分布统计假说检定,属于母数统计。学生t检验常作为检验一群来自常态分配母体的独立样本期望值是否为某一实数,或是二(两)群来自常态分配母体的独立样本期望值的差是否为某一实数。举个简单的例子,在某个学校中我们可以从某个年级中随机抽样一群男生,以检验该年级男生与全校男生之身高差异程度是否如我们所假设的某个值。

由来

编辑

司徒顿t检定是威廉·戈塞为了观测酿酒品质于1908年所提出的,“司徒顿 (student)”则是他的笔名[1][2][3][4] 基于克劳德·健力士(Claude Guinness)聘用从牛津大学剑桥大学出来的最好的毕业生,[2]以将生物化学及统计学应用到健力士工业流程的创新政策,戈塞受雇于都柏林的健力士酿酒厂担任统计学家。戈塞提出了t检验以降低啤酒重量监控的成本。戈塞于1908年在《Biometrika英语Biometrika》期刊上公布t检验,但因其老板认为其为商业机密而被迫使用笔名,统计学论文内容也跟酿酒无关。实际上,其他统计学家是知道戈塞真实身份的。

应用

编辑

常见的应用有:

  • 单样本检验:检验一个正态分布的总体的均值是否在满足零假设的值之内,例如检验一群军校男生的身高的平均是否符合全国标准的170公分界线。
  • 独立样本t检定(双样本):其零假设为两个正态分布的总体的均值之差为某实数,例如检定二群人之平均身高是否相等。若两母体的变异数是相等的情况下(同质变异数),自由度为两样本数相加再减二;若为异质变异数(母体变异数不相等),自由度则为Welch自由度,此情况下有时被称为Welch检验。
  • 配对样本t检定(成对样本t检定):检定自同一母体抽出的成对样本间差异是否为零。例如,检测一位病人接受治疗前和治疗后的肿瘤尺寸大小。若治疗是有效的,我们可以推定多数病人接受治疗后,肿瘤尺寸将缩小。
  • 检验一回归模型的偏回归系数是否显著不为零,即检定解释变数X是否存在对被解释变数Y的解释能力,其检定统计量称之为t-比例(t-ratio)。

前提假设

编辑

大多数的t检定之统计量具有t = Z/s的形式,其中Zs是已知资料的函数。Z通常被设计成对于对立假说有关的形式,而s是一个比例母数使t服从于t分布。以单样本t检验为例, ,其中 为样本平均数, 为样本数, 为总体标准差。至于s在单样本t检验中为 ,其中 为样本的标准差。在符合零假说的条件下,t检定有以下前提:

  • Z 服从标准常态分布
  • (n - 1)s2 服从自由度(n - 1)的卡方分布
  • Zs互相独立

计算

编辑

单样本t检验

编辑

检验虚无假说为一群来自常态分配独立样本xi之母体期望值μμ0可利用以下统计量

 

其中  为样本平均数, 为样本标准差n样本数。该统计量t在虚无假说:μ = μ0为真的条件下服从自由度为n − 1的t分布

配对样本t检验

编辑

配对样本t检验可视为单样本t检验的扩展,不过检验的对象由一群来自常态分配独立样本更改为两配对样本之观测值之差。

若两配对样本x1ix2i之差为di = x1ix2i独立且来自常态分配,则di之母体期望值μ是否为μ0可利用以下统计量

 

其中  为配对样本差值之平均数, 为配对样本差值之标准差n为配对样本数。该统计量t在虚无假说:μ = μ0为真的条件下服从自由度为n − 1的t分布

独立双样本t检验

编辑

同质变异数假设 (Homoscedasticity)、样本数相等

编辑

若两独立样本x1ix2i具有相同之样本数n,且来自两个母体变异数相同(同质变异数假设)的常态分配,则两母体之期望值差μ1 - μ2是否为μ0可利用以下统计量

 

其中   为两样本各自的平均数, 为样本之共同方差。该统计量t在虚无假说:μ1 - μ2 = μ0为真的条件下服从自由度为2n − 2的t分布

同质变异数假设 (Homoscedasticity)、样本数不相等

编辑

若两独立样本x1ix2j具有不相同之样本数n1n2,且来自两个母体变异数相同(同质变异数假设)的常态分配,则两母体之期望值之差μ1 - μ2是否为μ0可利用以下统计量

 

其中 ,其中   为两样本各自的平均数, 为两样本共同之方差。该统计量t在虚无假说:μ1 - μ2 = μ0为真的条件下服从自由度为n1 + n2 − 2的t分布

异质变异数假设 (Heteroscedasticity)

编辑

若两独立样本x1ix2j具有相同或不相同之样本数n1n2,且两者母体变异数不相等(异质变异数假设)的常态分配,则两母体之期望值之差μ1 - μ2是否为μ0可利用以下统计量

 

其中 ,其中   为两样本各自的平均数,  分别为两样本之方差。该统计量t在虚无假说:μ1 - μ2 = μ0为真的条件下服从自由度为

 

t分布。这种方法又常称为Welch检验。

其它相关检验

编辑

偏回归系数是否为零之检定

编辑
以简单线性回归为例
编辑

模型假设:

 

其中xii = 1, ..., n为已知,αβ为未知系数,εi残差独立且服从期望值0且方差σ2未知的常态分布,yii = 1, ..., n为观测值。我们可以检验回归系数β是否相等于特定的β0,通常使β0 = 0以检定xiyi是否存在解释能力,在此例(简单线性回归模型)即为检定回归式之斜率是否为零。

  最小平方法之估计值,  为最小平方法估计值之标准误差,则

 

在虚无假说为β = β0的情况下服从自由度为n − 2之t分布,此检定统计量被称作“t比率 (t-ratio)”,其中

 

由于  为残差(即估计误差),而   为残差之离均平方和,我们可改写t

 

另请参阅:F检验

电脑软体

编辑

大多数的试算表软体及统计软体,诸如QtiPlotOpenOffice.org CalcLibreOffice CalcMicrosoft ExcelSASSPSSStataDAPgretlRPython ([1]页面存档备份,存于互联网档案馆))、PSPPMinitab等,都可以进行t检验运算。

编程语言/软件程序 函数 注释
Microsoft Excel 2010 之前的版本 TTEST(array1, array2, tails, type) 参见 [2]
Microsoft Excel 2010 及更高版本 T.TEST(array1, array2, tails, type) 参见 [3]页面存档备份,存于互联网档案馆
LibreOffice TTEST(Data1; Data2; Mode; Type) 参见 [4]页面存档备份,存于互联网档案馆
Google Sheets TTEST(range1, range2, tails, type) 参见 [5]页面存档备份,存于互联网档案馆
Python scipy.stats.ttest_ind(a, b, axis=0, equal_var=True) 参见 [6]页面存档备份,存于互联网档案馆
Matlab ttest(data1, data2) 参见 [7]页面存档备份,存于互联网档案馆
Mathematica TTest[{data1,data2}] 参见 [8]页面存档备份,存于互联网档案馆
R t.test(data1, data2)
SAS PROC TTEST 参见 [9]
Java tTest(sample1, sample2) 参见 [10]页面存档备份,存于互联网档案馆
Julia EqualVarianceTTest(sample1, sample2) 参见 [11]
Stata ttest data1 == data2 See [12]页面存档备份,存于互联网档案馆

参见

编辑

参考文献

编辑
  1. ^ Richard Mankiewicz, The Story of Mathematics (Princeton University Press), p.158.
  2. ^ 2.0 2.1 约翰·J·奥康纳; 埃德蒙·F·罗伯逊, Gosset, MacTutor数学史档案 (英语) 
  3. ^ Fisher Box, Joan. Guinness, Gosset, Fisher, and Small Samples. Statistical Science. 1987, 2 (1): 45–52. JSTOR 2245613. doi:10.1214/ss/1177013437. 
  4. ^ 存档副本 (PDF). [2013-08-10]. (原始内容 (PDF)存档于2017-05-16).