虚拟变量

虚拟变量（英语：dummy variable），又称哑变量，指在统计学和计量经济学，尤其是回归分析中仅取0或1的值，以此表示某些可能改变结果的定性效应之有无的变量。^[1]^[2]可以认为，虚拟变量是回归模型中用数字来替代并表示定性事实，从而将数据分为互斥的类别（如吸烟者及非吸烟者）。^[3]

虚拟自变量（又称虚拟解释变量）取值为0时，该变量的系数对因变量没有影响，而当虚拟变量取值为1时，其系数会改变截距。例如，假定某人是否为某组的成员是与回归相关的定性变量之一，如果属于该组成员以1代表，则其他所有人获得0值，此时截距对非成员是常数项，对成员则是常数项加上“成员”虚拟变量的系数。^[4]

虚拟变量常用于时间序列分析，包括状态转换、季节性分析和定性数据应用。

引入虚拟自变量

图1：

wage = α 0 + δ 0 female + α 1 education + U

的图像，其中

δ 0 < 0

。

回归模型中，引入虚拟变量的方式与引入定量变量（作为解释变量）的方式相同。例如，假设一个工资（wage）的明瑟回归模型，其中工资受性别（以female表示的虚拟变量，定性）和教育年限（education，定量）的影响，则：

\ln {\text{wage}}=\alpha _{0}+\delta _{0}{\text{female}}+\alpha _{1}{\text{education}}+u

其中 $u\sim N(0,\sigma ^{2})$ 是误差项。在模型中，当一个人是女性时，female = 1，当是男性时，female = 0。 $δ 0$ 可以理解为教育条件一样时，女性和男性之间的工资差异。因此， $δ 0$ 有助于确定男女之间的工资是否存在差异。例如，如果 $δ 0 > 0$ （正系数），则女性的工资高于男性（其他因素不变）。附加在虚拟变量前的系数称为差别截距系数（differential intercept coefficient）。在模型的图像上，它可视为女性及男性之间截距的差异。图中显示的为 $δ 0 < 0$ （男性的工资高于女性）的情形。^[5]

虚拟变量可扩展到更为复杂的情况，例如通过替每个季节设置虚拟变量来捕捉季节效应：夏季时 $D_{1}=1$ ，其他季节取0；秋季时 $D_{2}=1$ ；冬季时 $D_{3}=1$ ；春季时 $D_{4}=1$ 。在面板数据中，可为横截面数据（如公司或国家）中的每个单位或汇总时间序列中的时期设置固定效应估计虚拟变量。在此种回归中，必须删除常数项或删除其中一个虚拟变量，将其作为评估其他类别的基本类别，以避免落入虚拟变量陷阱（dummy variable trap）：

所有回归方程中的常数项是一个系数乘以一个等于1的回归量。当回归表示为矩阵方程时，回归量矩阵由一列1（常数项）、0和1向量（虚拟变量）以及其他回归量（若有）组成。例如，如果一个模型同时包含男性和女性虚拟变量，则这些向量的总和是全一向量，因为每个观察都要么归为男性，要么归为女性。因此，这个总和等于常数项的回归量，即第一个向量。结果，即使使用典型的伪逆法，回归方程也无法求解。换句话说：如果全一向量（常数项）回归量和一组穷举的虚拟变量同时存在，则会出现完全多重共线性^[6]，回归形成的方程组没有唯一解。此即虚拟变量陷阱。可通过删除常数项或其中一个有问题的虚拟变量以避免陷阱，而被删除的虚拟变量即作为与其他类别进行比较的基本类别。

方差分析模型

若一个回归模型中，因变量本质上是定量的，但所有解释变量都是虚拟变量（本质上是定性的），这种回归模型称为方差分析（ANOVA）模型。^[3]

有一个定性变量的方差分析模型

假定我们要进行回归以了解公立学校教师的平均年薪在A国51个州的三个地理区域之间是否存在差异，其中这三个区域分别为：（1）北部（21 个州），（2）南部（17 个州），（3）西部（13 个州）。假设简单算术平均工资如下：$24,424.14（北）、$22,894（南）、$26,158.62（西）。其算术平均值不同，但它们在统计上是否有意义？为了比较平均值，可以使用方差分析技术。回归模型可以定义为：

Y_{i}=\alpha _{1}+\alpha _{2}D_{2i}+\alpha _{3}D_{3i}+u_{i}

其中

Y_{i}=

i州公立学校教师的平均年薪

若i州在北部地区，则

D_{2i}=1

，

否则

D_{2i}=0

（除北部以外的任何地区）

若i州在南部地区，

D_{3i}=1

否则

D_{3i}=0

该模型中只有定性回归量，如果观测属于特定类别，则取值为1，如果属于任何其他类别，则取值为0。因此，它是一个方差分析模型。

图 2：方差分析模型示例回归结果的图像：A国3个地区公立学校教师的平均年薪。

现在，考虑双方的期望，可得到以下信息：

北部地区公立学校教师平均工资：

E (Y i | D 2 i = 1, D 3 i = 0) = α 1 + α 2

南部地区公立学校教师平均工资：

E (Y i | D 2 i = 0, D 3 i = 1) = α 1 + α 3

西部地区公立学校教师平均工资：

E (Y i | D 2 i = 0, D 3 i = 0) = α 1

（期望中不含误差项，因为我们假设它满足通常的普通最小二乘法条件，即 $E (u i) = 0$ 。）

期望可以解释如下：西部公立学校教师的平均工资等于多元回归方程中的截距项 $α 1$ ，加上差别截距系数 $α 2$ 和 $α 3$ ，后者解释为南部、北部地区的教师工资均值与西部地区相差多少。因此，北部和南部教师的平均工资与西部教师的平均工资进行比较。西部地区因此成为基准组，即与之进行比较的组。省略的组别（即没有分配虚拟变量的组别）作为基准组别。

使用这些数据进行回归的结果为：

Ŷ i = 26,158.62 - 1734.473 D 2 i - 3264.615 D 3 i

se = (1128.523) (1435.953) (1499.615)

t = (23.1759) (-1.2078) (-2.1776)

p = (0.0000) (0.2330) (0.0349)

R 2 = 0.0901

其中， $se$ = 标准误差， $t$ = t统计量（英语：t-statistic）， $p$ = p值。

回归结果可以解释为：西部教师（基准组）的平均工资约为$26,158；与之相比，北部教师的工资低约$1734（$26,158.62 - $1734.473 = $24,424.14，即平均工资北部教师的工资），南部教师的工资低约$3265（$26,158.62 - $3264.615 = $22,894，即南部教师的平均工资）。

要确定南、北部教师的平均工资与西部教师的平均工资（比较组别）在统计学上是否有差异，我们必须找出回归结果的斜率系数是否具有统计学意义。为此，我们需要考虑p值。北部的估计斜率系数在统计上并不显着，因为它的p值为23%；然而，南部的p值仅在3.5%左右，在5%的水平上具有统计显著性。因此，总体结果是：西部和北部教师的平均工资在统计上没有显著差异，但南部教师的平均工资在统计上比西部低$3265左右。模型如图2所示。该模型是一个方差分析模型，其中，一个定性变量具有3个类别。^[3]

有两个定性变量的方差分析模型

考虑具有两个定性变量的方差分析模型，每个变量都有两个类别：因变量“时薪”使用定性变量“婚姻状况”（已婚/未婚）和“地理区域”（北部/非北部）来解释。其中，婚姻状况和地理区域是两个解释性虚拟变量。^[3]

假设基于某些给定数据的回归输出如下所示：

Ŷ i = 8.8148 + 1.0997 D 2 - 1.6729 D 3

其中，

Y

为时薪（单位：$）

D 2

为婚姻状况，1 = 已婚，0 = 未婚

D 3

为地理区域，1 = 北部，0 = 非北部

该模型为每个定性变量分配了一个虚拟变量，比每个变量中包含的类别数少一个。

这里，基准组是省略的组别：未婚、非北方地区的人。所有比较都与该基准组或省略的组别相关。基准组的平均时薪约为$8.81（截距项）。相比之下，已婚人士的平均时薪高出约$1.10，约为$9.91（$8.81 + $1.10）。相比之下，居住在北方的人的平均时薪低约$1.67，约为$7.14（$8.81 - $1.67）。

一般来说，如果回归中包含一个以上的定性变量，则应选择一个省略的组别作为基准组。所有比较都与该组相关。截距项将显示基准组的期望，斜率系数显示其他组别与基准（省略）组别的差异程度。^[3]

协方差分析模型

包含定量和定性变量的混合回归模型称为协方差分析（英语：Analysis of covariance）（ANCOVA）模型。协方差分析模型是方差分析模型的扩展。它们统计控制定量解释变量（也称为协变量或控制变量）的影响。^[3]

为了说明如何包含定性和定量回归变量来形成协方差分析模型，假设我们考虑在方差分析模型中使用的相同示例，其中有一个定性变量：A国三个地理区域的公立学校教师的平均年薪。如果我们包括一个定量的变量：州政府对每名公立学校学生的财政支出，则这一回归中，可得到以下模型：

图3：协方差分析模型示例的回归结果：公立学校教师的年薪（Y）与公立学校每名学生的州财政支出之间的关系。

Y i = α 1 + α 2 D 2 i + α 3 D 3 i + α 4 X i + U i

其中，

Y i

= i州公立学校教师的平均年薪

X i

= 公立学校每名学生的州财政支出

D 2 i

= 1，若i州在北部地区

否则

D 2 i

= 0

D 3 i

= 1，若i州在南部地区

否则

D 3 i

= 0

假设这个模型的回归输出是

Ŷ i = 13,269.11 - 1673.514 D 2 i - 1144.157 D 3 i + 3.2889 X i

结果表明，公立学校每名学生的州财政支出每增加$1，公立学校教师的平均工资就会增加约$3.29。此外，对于北部地区的一个州，教师的平均工资比西部地区低约$1673，对于南部地区的一个州，教师的平均工资比西部地区低约$1144。图3描绘了该模型。假设支出系数不因州而异，则平均工资线彼此平行。图中分别显示了每个类别中，两个定量变量之间的关系，即公立学校教师的工资（Y）与公立学校每名学生的州财政支出（X）之间的关系。^[3]

虚拟变量间的交互作用

回归模型中的定量回归变量通常存在交互作用。同样，定性的回归变量，即虚拟变量之间也可能有交互作用，这些交互作用可在回归模型中描述。例如，在涉及工资确定的回归中，如果考虑两个定性变量：性别和婚姻状况，则婚姻状况和性别之间可能存在交互作用。^[5]这些交互作用可以在回归方程中显示，如下例所示。

由于两定性变量是性别和婚姻状况，定量的解释变量是受教育年限，解释变量纯线性的回归将是

Y i = β 1 + β 2 D 2, i + β 3 D 3, i + αX i + U i

其中

i

表示某个特定个人

Y

= 时薪（单位：$）

X

= 受教育年限

D 2

= 1若为女性，否则为0

D 3

= 1若已婚，否则为0

这一模型无法表达两个定性变量 $D 2$ 和 $D 3$ 之间发生交互作用的可能性。例如，已婚女性的工资与未婚男性的工资差异，其数额与单独为女性和单独为已婚的差值之和不同。为了考虑这种可能性，工资的确定可以指定为：

Y i = β 1 + β 2 D 2, i + β 3 D 3, i + β 4 (D 2, i D 3, i) + αX i + U i

其中，

β 2

= 作为女性的差别效应

β 3

= 已婚的差别效应

β 4

= 女性且已婚的进一步差别效应

根据该等式，在没有非零误差的情况下，未婚男性的工资为 $β 1 + αX i$ ，未婚女性的工资为 $β 1 + β 2 + αX i$ ，已婚男性的工资为 $β 1 + β 3 + αX i$ ，而已婚女性的比例是 $β 1 + β 2 + β 3 + β 4 + αX i$ （其中任何虚拟变量系数的估计值都可能是为正、零，或负）。

由此，交互虚拟变量（两个虚拟变量的乘积）会改变因变量，使之与单独考虑两个虚拟变量时得到的值有所不同。^[3]

或者，可以通过使用不同的数据分类方案来避免使用虚拟变量的乘积来表达交互作用，即使用根据特征组合指定组别的方案。如果令

D 4

= 1若为未婚女性，否则为0

D 5

= 1若为已婚男性，否则为0

D 6

= 1若为已婚女性，否则为0

那么仅需指定如下回归：

Y i = δ 1 + δ 4 D 4, i + δ 5 D 5, i + δ 6 D 6, i + αX i + U i

那么在零误差项下，因变量的值是对于基准组未婚男性为 $δ 1 + αX i$ ，对于未婚女性为 $δ 1 + δ 4 + αX i$ ，对于已婚男性为 $δ 1 + δ 5 + αX i$ ，对于已婚女性为 $δ 1 + δ 6 + αX i$ 。该方法在等号右侧使用的变量数与先前具有交互项的方法相同，并且使用本方法还是指定交互项目的方法，对于 $X i$ 下任意定性特征组合下的因变量预测值，给出的回归结果是相同的。

虚拟因变量

因变量是虚拟变量的情景

具有虚拟因变量（也称为定性因变量）的模型中，因变量受解释变量的影响是定性的。例如，一些关于执行“多少”行为的决定涉及事先决定是否执行该行为；“事前决策”的回归在回归模型中有一个因虚拟变量。^[7]

例如，潜在工人成为劳动力一部分的决策是一个虚拟因变量。该决策是二分的，即有两种可能的结果：是和否。因此，虚拟因变量Participation在“参与”时取值为1，“不参与”则取值为0。^[3]下面给出其他一些二元的虚拟因变量的例子：

决策：职业选择。虚拟因变量：若选择成为高管，则高管=1，否则为0。

决策：隶属于某政党。虚拟因变量：若隶属于某政党，则隶属=1，不加入则为0。

决策：退休。虚拟因变量：若已退休，则退休=1，0表示未退休。

当虚拟因变量具有两个以上的值时（例如隶属于多个政党），它就变成了多响应（或多项式、多叉分枝）模型。^[7]

虚拟因变量模型

虚拟因变量模型的分析有不同的方法。其中一种是通常的普通最小二乘法，在该情景下称为线性概率模型（英语：linear probability model）。另一种方法是假设存在一个不可观察的连续潜变量Y^*，如果Y^* > 0，则观察到的二分变量Y = 1，否则为0。这是逻辑斯谛和概率单位模型（英语：Probit model）的基本理念。这些模型将在下面简要讨论。^[8]

线性概率模型

普通最小二乘法模型中，若因变量 $Y$ 是二分的虚拟变量，取值0或1，则称该模型为线性概率模型（英语：linear probability model）（LPM）。^[8]假设考虑以下回归：

Y_{i}=\alpha _{1}+\alpha _{2}X_{i}+u_{i}

其中 $z_{i}=\alpha _{1}+\alpha _{2}X_{i}+u_{i}$ 。

X

= 家庭收入

Y=1

若住房为家庭自有，0若住房非家庭自有

该模型称为线性概率模型，是因为回归是线性的。给定 $X i$ 条件下的 $Y i$ 的条件均值记作 $\mathbb {E} (Y_{i}|X_{i})$ ，可解释为在相应 $X i$ 值下，事件发生的条件概率，即 $Pr(Y i = 1 | X i)$ 。在这个例子中， $\mathbb {E} (Y_{i}|X_{i})$ 表示的是当家庭收入为 $X i$ 时，一个家庭自有住房的概率。

此时，使用普通最小二乘法的假设 $E(u_{i}|X_{i})=0$ ，可得到

\mathbb {E} (Y_{i}|X_{i})=\alpha _{1}+\alpha _{2}X_{i}

LPM模型中存在一些固有问题：

回归线无法做到拟合良好，因此诸如 $R 2$ 之类的显著性度量将不可靠。
使用LPM方法分析的模型有异方差干扰。
误差项有非正态分布。
LPM可能会给出大于1或小于0的因变量的预测值。这将很难作出解释，因为预测值是概率，必须介于0和1之间。
LPM模型的变量之间可能存在非线性关系，在这种情况下，线性回归将无法准确拟合数据。^[3]^[9]

线性概率模型的替代品

图 4：累积分布函数

为了避免LPM的局限性，我们需要一个模型，其中随着解释变量 $X i$ 的增加， $P i = E (Y i = 1 | X i)$ 应恒在0到1之间。因此，自变量和因变量之间的关系必然是非线性的。

为此，可以使用累积分布函数（CDF）来估计虚拟因变量回归。图4显示了一条S形曲线，它类似于随机变量的累积分布函数。该模型中，概率在0和1之间，并且已经捕获了非线性关系。此时的问题就是如何选用累积分布函数。

可以使用两种替代性的CDF：逻辑斯谛（英语：Logistic distribution）CDF和正态CDF。逻辑斯谛CDF产生逻辑斯谛模型，正态CDF产生概率单位模型（英语：Probit model）。^[3]

逻辑斯谛模型

LPM的缺点促使人们开发了一种改良的模型，称为logit模型。该模型中，回归方程中误差项的累积分布是逻辑斯谛分布（英语：Logistic distribution）。^[8]因为它是非线性的，其回归更接近现实。

使用最大似然法估计logit模型。该模型中， $P(Y=1|X)$ ，即在给定自变量的情况下，因变量取值为1的概率为：

P_{i}={\frac {1}{1+e^{-z_{i}}}}\ ={\frac {e^{z_{i}}}{1+e^{z_{i}}}}\

然后模型以让步比（英语：odds ratio）的形式表示：逻辑斯谛回归（对数几率回归）中建模的是几率的自然对数，几率定义为 $P/(1-P)$ 。取几率的自然对数，logit（ $L i$ ）表示为

L_{i}=\ln \left({\frac {P_{i}}{1-P_{i}}}\right)=z_{i}=\alpha _{1}+\alpha _{2}X_{i}.

这种关系表明， $L i$ 与 $X i$ 呈线性关系，但概率与 $X i$ 呈非线性关系。^[9]

概率单位模型

概率单位（probit）模型是为弥补LPM的缺点而提出的另一个模型。Probit模型使用与logit模型相同的非线性方法。但是，它使用正态CDF而不是逻辑CDF。^[8]

参见

参考文献

^ Draper, N. R.; Smith, H. ‘Dummy’ Variables. Wiley. 1998: 299–326. ISBN 0-471-17082-8.
^ Interpreting the Coefficients on Dummy Variables (PDF). （原始内容 (PDF)存档于August 18, 2003）.
^ ^3.00 ^3.01 ^3.02 ^3.03 ^3.04 ^3.05 ^3.06 ^3.07 ^3.08 ^3.09 ^3.10 Gujarati, Damodar N. Basic Econometrics. McGraw Hill. 2003. ISBN 0-07-233542-4.
^ Kennedy, Peter. A Guide to Econometrics Fifth. Cambridge: The MIT Press. 2003: 249–250. ISBN 0-262-61183-X.
^ ^5.0 ^5.1 Wooldridge, Jeffrey M. Introductory econometrics: a modern approach. Cengage Learning. 2009: 865 [2022-07-22]. ISBN 978-0-324-58162-1. （原始内容存档于2022-07-22）.
^ Suits, Daniel B. Use of Dummy Variables in Regression Equations. Journal of the American Statistical Association. 1957, 52 (280): 548–551. JSTOR 2281705. doi:10.1080/01621459.1957.10501412.
^ ^7.0 ^7.1 Barreto, Humberto; Howland, Frank. Chapter 22: Dummy Dependent Variable Models. Cambridge University Press. 2005 [2022-07-22]. ISBN 0-521-84319-7. （原始内容存档于2021-10-17）.
^ ^8.0 ^8.1 ^8.2 ^8.3 Maddala, G S. Introduction to econometrics. Macmillan Pub. Co. 1992: 631 [2022-07-22]. ISBN 0-02-374545-2. （原始内容存档于2022-07-22）.
^ ^9.0 ^9.1 Adnan Kasman, Dummy Dependent Variable Models. [2022-07-22]. （原始内容存档于2021-04-30）.

延伸阅读

Asteriou, Dimitrios; Hall, S. G. Dummy Variables 3rd. London: Palgrave Macmillan. 2015: 209–230. ISBN 978-1-137-41546-2.
Kooyman, Marius A. Dummy Variables in Econometrics. Tilburg: Tilburg University Press. 1976. ISBN 90-237-2919-6.

外部链接

Maathuis, Marloes. Chapter 7: Dummy variable regression (PDF). Stat 423: Applied Regression and Analysis of Variance. 2007. （原始内容 (PDF)存档于December 16, 2011）.
Fox, John. Dummy-Variable Regression (PDF). 2010 [2022-07-22]. （原始内容存档 (PDF)于2022-11-22）.
Baker, Samuel L. Dummy Variables (PDF). 2006. （原始内容 (PDF)存档于March 1, 2006）.

[1] Draper, N. R.; Smith, H. ‘Dummy’ Variables. Wiley. 1998: 299–326. ISBN 0-471-17082-8.

[Interpreting_Coefficients-2] Interpreting the Coefficients on Dummy Variables (PDF). （原始内容 (PDF)存档于August 18, 2003）.

[Gujarati-3] 3.00 ^3.01 ^3.02 ^3.03 ^3.04 ^3.05 ^3.06 ^3.07 ^3.08 ^3.09 ^3.10 Gujarati, Damodar N. Basic Econometrics. McGraw Hill. 2003. ISBN 0-07-233542-4.

[4] Kennedy, Peter. A Guide to Econometrics Fifth. Cambridge: The MIT Press. 2003: 249–250. ISBN 0-262-61183-X.

[Wooldridge-5] 5.0 ^5.1 Wooldridge, Jeffrey M. Introductory econometrics: a modern approach. Cengage Learning. 2009: 865 [2022-07-22]. ISBN 978-0-324-58162-1. （原始内容存档于2022-07-22）.

[6] Suits, Daniel B. Use of Dummy Variables in Regression Equations. Journal of the American Statistical Association. 1957, 52 (280): 548–551. JSTOR 2281705. doi:10.1080/01621459.1957.10501412.

[Wabash-7] 7.0 ^7.1 Barreto, Humberto; Howland, Frank. Chapter 22: Dummy Dependent Variable Models. Cambridge University Press. 2005 [2022-07-22]. ISBN 0-521-84319-7. （原始内容存档于2021-10-17）.

[Maddala-8] 8.0 ^8.1 ^8.2 ^8.3 Maddala, G S. Introduction to econometrics. Macmillan Pub. Co. 1992: 631 [2022-07-22]. ISBN 0-02-374545-2. （原始内容存档于2022-07-22）.

[DD-9] 9.0 ^9.1 Adnan Kasman, Dummy Dependent Variable Models. [2022-07-22]. （原始内容存档于2021-04-30）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]