倾向评分匹配

倾向评分匹配（Propensity Score Matching，简称PSM）是一种统计学方法，用于处理观察研究（Observational Study）的数据。在观察研究中，由于种种原因，数据偏差（bias）和混杂变量（confounding variable）较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由Paul Rosenbaum和Donald Rubin在1983年提出^[1]，一般常用于医学、公共卫生、经济学等领域。以公共卫生学为例，假设研究问题是吸烟对于大众健康的影响，研究人员常常得到的数据是观察研究数据，而不是随机对照实验数据（Randomized Controlled Trial data），因为吸烟者的行为和结果，以及不吸烟者的行为和结果，是很容易观察到的。但如果要进行随机对照实验，招收大量被试，然后随机分配到吸烟组和不吸烟组，这种实验设计不太容易实现，也并不符合科研伦理。这种情况下观察研究是最合适的研究方法。但是面对最容易获得的观察研究数据，如果不加调整，很容易获得错误的结论，比如拿吸烟组健康状况最好的一些人和不吸烟组健康状况最不好的一些人作对比，得出吸烟对于健康并无负面影响的结论。从统计学角度分析原因，这是因为观察研究并未采用随机分组的方法，无法基于大数定理的作用，在实验组和对照组之间削弱混杂变量的影响，很容易产生系统性的偏差。倾向评分匹配就是用来解决这个问题，消除组别之间的干扰因素。

适用情形

倾向评分匹配法适用于两类情形。第一，在观察研究中，对照组与实验组中可直接比较的个体数量很少。在这种情形下，实验组和对照组的交集很小，比如治疗组健康状况最好的10%人群与非治疗组健康状况最差的10%人群是相似的，如果将这两个重合的子集进行比较，就会得出非常偏倚的结论。第二，由于衡量个体特征的参数很多，所以想从对照组中选出一个跟实验组在各项参数上都相同或相近的子集作对比变得非常困难。在一般的匹配方法中，我们只需要控制一两个变量（如年龄、性别等）即可，就可以很容易从对照组中选出一个拥有相同特征的子集，以便与实验组进行对比。但是在某型情形下，衡量个体特征的变量会非常多，这时想选出一个理想的子集变得非常困难。经常出现的情形是，控制了某些变量，但是在其他变量上差异很大，以至于无法将实验组和对照组进行比较。

倾向评分匹配通过使用逻辑斯谛回归模型来决定评分。

参考文献

^ Rosenbaum, Paul R.; Rubin, Donald B. The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika. 1983, 70 (1): 41–55. doi:10.1093/biomet/70.1.41.

外部链接

Introduction to Propensity Score Matching: A New Device for Program Evaluation^{[永久失效链接]}. Lecture notes 2004
Implementing Propensity Score Matching Estimators with STATA （页面存档备份，存于互联网档案馆）. Lecture notes 2001

[1] Rosenbaum, Paul R.; Rubin, Donald B. The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika. 1983, 70 (1): 41–55. doi:10.1093/biomet/70.1.41.

[1]