简单线性回归

在统计学中，简单线性回归是指仅具有单一的自变量的线性回归^[1]^[2]^[3]^[4]^[5]，其中“简单”系单一自变量之意。此回归可用于估计有限的截距与斜率以推论因变量在特定自变量为条件下的均值。

普通最小二乘法是常见用于寻求简单线性回归式的方法，目的是得到能使残差平方和最小的回归式。其它方法，诸如最小绝对偏差（英语：Least absolute deviations）（使残差绝对值的总和最小）、泰尔－森估算（所有样本点两两配对的斜率中位数做为整体斜率）等，亦可应用于简单线性回归的命题。戴明回归（英语：Deming regression）（考虑自变量与因变量同时为误差来源）的功能虽然与上述方法相似但不属于简单线性回归的范畴，因其不区分自变量与因变量且可能得到多个回归式。

以最小二乘法处理简单线性回归，则求得的斜率 $β$ 等于自变量 $x$ 与因变量 $y$ 的皮尔逊积矩相关系数与二者的标准偏差比值的乘积，

{\hat {\beta }}=r_{x,y}{\frac {s_{y}}{s_{x}}}

而再考虑截距 $α$ 则保证使回归线通过自变量与因变量的均值 $(x, y)$ 。

计算回归式

以下皆以普通最小二乘法求解简单线性回归式。考虑以下的数学模型函数

y=\alpha +\beta x

，

是一条斜率为 $β$ 且y轴截距为 $α$ 的直线。通常实际上自变量与因变量并非如此完美的关系而存在未知的误差 $ε i$ ，即

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i},i=1,\ldots ,n

，

以表示第 $i$ 对资料中自变量与因变量的关系。此模型称为简单线性模型。

计算回归式的目标是根据资料计算估计值 ${\hat {\alpha }}$ 与 ${\hat {\beta }}$ 以“最佳地”估计参数 $α$ 与 $β$ 。由于采用最小二乘法进行计算，“最佳”系指能使残差平方和 ${\hat {\varepsilon }}_{i}=y_{i}-\alpha -\beta x_{i}$ 最小的参数估计值为目标。换句话说，我们寻求能使 $Q$ 函数值最小的解，

Q(\alpha ,\beta )=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}

。

此解为 ${\hat {\alpha }}$ 与 ${\hat {\beta }}$ ^[6]，

{\textstyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-({\hat {\beta }}\,{\bar {x}}),\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\\&={\frac {s_{x,y}}{s_{x}^{2}}}\\&=r_{xy}{\frac {s_{y}}{s_{x}}}\end{aligned}}}

其中

${\bar {x}}$ 与 ${\bar {y}}$ 分别为 $x i$ 与 $y i$ 的计数平均数，
$r xy$ 为 $x$ 与 $y$ 的皮尔逊积矩相关系数，
$s x$ 与 $s y$ 分别为 $x$ 与 $y$ 的样本标准偏差，
$s_{x}^{2}$ 与 $s_{x,y}$ 分别为 $x$ 的样本方差及 $x$ 与 $y$ 间的样本协方差。

将 ${\hat {\alpha }}$ 与 ${\hat {\beta }}$ 带入

{\hat {y}}={\hat {\alpha }}+{\hat {\beta }}x

可得

{\frac {{\hat {y}}-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}

。

此式呈现了 $r xy$ 为预先将自变量与因变量预先标准化后的回归斜率。由于 $r xy$ 界于 $-1$ 与 $1$ 之间，左式的绝对值势必不大于右式，体现了趋中回归（英语：Regression toward the mean）的现象。

以 ${\overline {xy}}$ 表示对应的 $x$ 与 $y$ 的乘积和，

{\overline {xy}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}

，

可使 $r xy$ 简化成

r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {\left({\overline {x^{2}}}-{\bar {x}}^{2}\right)\left({\overline {y^{2}}}-{\bar {y}}^{2}\right)}}}

。

简单线性回归的判定系数即为二变数间皮尔逊积矩相关系数的平方：

R^{2}=r_{xy}^{2}

。

回归系数（斜率）的意义

将 ${\hat {\beta }}$ 的估计式分子乘以 ${\frac {(x_{i}-{\bar {x}})}{(x_{i}-{\bar {x}})}}$ ，可改写为

${\hat {\beta }}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}\left((x_{i}-{\bar {x}})^{2}\times {\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}\right)}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}$ 。

可以看出，回归式的斜率为 ${\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}$ 以 $(x_{i}-{\bar {x}})^{2}$ 为权数的加权平均。因此， $(x_{i}-{\bar {x}})^{2}$ 越大的资料对斜率 ${\hat {\beta }}$ 的影响力越大。

截距的意义

${\hat {\alpha }}$ 可经由下列式子估算： ${\hat {\alpha }}={\bar {y}}-{\hat {\beta }}\ {\bar {x}}$ 。由于 ${\hat {\beta }}=\tan(\theta )=dy/dx\rightarrow dy=dx\times {\hat {\beta }}$ ，其中 $\theta$ 即为与横轴正值的夹角，可以得到 ${\hat {\alpha }}={\bar {y}}-dx\times {\hat {\beta }}={\bar {y}}-dy$ 。

参考文献

^ Seltman, Howard J. Experimental Design and Analysis (PDF). 2008-09-08: 227 [2024-04-29]. （原始内容存档 (PDF)于2016-11-30）.
^ Statistical Sampling and Regression: Simple Linear Regression. Columbia University. [2016-10-17]. （原始内容存档于2017-12-11）. When one independent variable is used in a regression, it is called a simple regression;(...)
^ Lane, David M. Introduction to Statistics (PDF). : 462 [2024-04-29]. （原始内容存档 (PDF)于2019-12-10）.
^ Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499 （English）.
^ Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627 （English）.
^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285

[1] Seltman, Howard J. Experimental Design and Analysis (PDF). 2008-09-08: 227 [2024-04-29]. （原始内容存档 (PDF)于2016-11-30）.

[:0-2] Statistical Sampling and Regression: Simple Linear Regression. Columbia University. [2016-10-17]. （原始内容存档于2017-12-11）. When one independent variable is used in a regression, it is called a simple regression;(...)

[3] Lane, David M. Introduction to Statistics (PDF). : 462 [2024-04-29]. （原始内容存档 (PDF)于2019-12-10）.

[4] Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499 （English）.

[5] Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627 （English）.

[6] Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285

[1]

[2]

[3]

[4]

[5]

[6]