簡單線性迴歸

在統計學中，簡單線性迴歸是指僅具有單一的自變數的線性迴歸^[1]^[2]^[3]^[4]^[5]，其中「簡單」係單一自變數之意。此迴歸可用於估計有限的截距與斜率以推論應變數在特定自變數為條件下的均值。

普通最小二乘法是常見用於尋求簡單線性迴歸式的方法，目的是得到能使殘差平方和最小的迴歸式。其它方法，諸如最小絕對偏差（英语：Least absolute deviations）（使殘差絕對值的總和最小）、泰爾－森估算（所有樣本點兩兩配對的斜率中位數做為整體斜率）等，亦可應用於簡單線性迴歸的命題。戴明迴歸（英语：Deming regression）（考慮自變數與應變數同時為誤差來源）的功能雖然與上述方法相似但不屬於簡單線性迴歸的範疇，因其不區分自變數與應變數且可能得到多個迴歸式。

以最小平方法處理簡單線性迴歸，則求得的斜率 $β$ 等於自變數 $x$ 與應變數 $y$ 的皮爾森積動差相關係數與二者的標準偏差比值的乘積，

{\hat {\beta }}=r_{x,y}{\frac {s_{y}}{s_{x}}}

而再考慮截距 $α$ 則保證使迴歸線通過自變數與應變數的均值 $(x, y)$ 。

計算迴歸式

以下皆以普通最小二乘法求解簡單線性迴歸式。考慮以下的數學模型函數

y=\alpha +\beta x

，

是一條斜率為 $β$ 且y軸截距為 $α$ 的直線。通常實際上自變數與應變數並非如此完美的關係而存在未知的誤差 $ε i$ ，即

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i},i=1,\ldots ,n

，

以表示第 $i$ 對資料中自變數與應變數的關係。此模型稱為簡單線性模型。

計算迴歸式的目標是根據資料計算估計值 ${\hat {\alpha }}$ 與 ${\hat {\beta }}$ 以「最佳地」估計參數 $α$ 與 $β$ 。由於採用最小平方法進行計算，「最佳」係指能使殘差平方和 ${\hat {\varepsilon }}_{i}=y_{i}-\alpha -\beta x_{i}$ 最小的參數估計值為目標。換句話說，我們尋求能使 $Q$ 函數值最小的解，

Q(\alpha ,\beta )=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}

。

此解為 ${\hat {\alpha }}$ 與 ${\hat {\beta }}$ ^[6]，

{\textstyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-({\hat {\beta }}\,{\bar {x}}),\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\\&={\frac {s_{x,y}}{s_{x}^{2}}}\\&=r_{xy}{\frac {s_{y}}{s_{x}}}\end{aligned}}}

其中

${\bar {x}}$ 與 ${\bar {y}}$ 分別為 $x i$ 與 $y i$ 的計數平均數，
$r xy$ 為 $x$ 與 $y$ 的皮爾森積動差相關係數，
$s x$ 與 $s y$ 分別為 $x$ 與 $y$ 的樣本標準偏差，
$s_{x}^{2}$ 與 $s_{x,y}$ 分別為 $x$ 的樣本變異數及 $x$ 與 $y$ 間的樣本共變異數。

將 ${\hat {\alpha }}$ 與 ${\hat {\beta }}$ 帶入

{\hat {y}}={\hat {\alpha }}+{\hat {\beta }}x

可得

{\frac {{\hat {y}}-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}

。

此式呈現了 $r xy$ 為預先將自變數與應變數預先標準化後的迴歸斜率。由於 $r xy$ 界於 $-1$ 與 $1$ 之間，左式的絕對值勢必不大於右式，體現了趨中迴歸（英语：Regression toward the mean）的現象。

以 ${\overline {xy}}$ 表示對應的 $x$ 與 $y$ 的乘積和，

{\overline {xy}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}

，

可使 $r xy$ 簡化成

r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {\left({\overline {x^{2}}}-{\bar {x}}^{2}\right)\left({\overline {y^{2}}}-{\bar {y}}^{2}\right)}}}

。

簡單線性迴歸的判定係數即為二變數間皮爾森積動差相關係數的平方：

R^{2}=r_{xy}^{2}

。

迴歸係數（斜率）的意義

將 ${\hat {\beta }}$ 的估計式分子乘以 ${\frac {(x_{i}-{\bar {x}})}{(x_{i}-{\bar {x}})}}$ ，可改寫為

${\hat {\beta }}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}\left((x_{i}-{\bar {x}})^{2}\times {\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}\right)}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}$ 。

可以看出，迴歸式的斜率為 ${\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}$ 以 $(x_{i}-{\bar {x}})^{2}$ 為權數的加權平均。因此， $(x_{i}-{\bar {x}})^{2}$ 越大的資料對斜率 ${\hat {\beta }}$ 的影響力越大。

截距的意義

${\hat {\alpha }}$ 可經由下列式子估算： ${\hat {\alpha }}={\bar {y}}-{\hat {\beta }}\ {\bar {x}}$ 。由於 ${\hat {\beta }}=\tan(\theta )=dy/dx\rightarrow dy=dx\times {\hat {\beta }}$ ，其中 $\theta$ 即為與橫軸正值的夾角，可以得到 ${\hat {\alpha }}={\bar {y}}-dx\times {\hat {\beta }}={\bar {y}}-dy$ 。

參考文獻

^ Seltman, Howard J. Experimental Design and Analysis (PDF). 2008-09-08: 227 [2024-04-29]. （原始内容存档 (PDF)于2016-11-30）.
^ Statistical Sampling and Regression: Simple Linear Regression. Columbia University. [2016-10-17]. （原始内容存档于2017-12-11）. When one independent variable is used in a regression, it is called a simple regression;(...)
^ Lane, David M. Introduction to Statistics (PDF). : 462 [2024-04-29]. （原始内容存档 (PDF)于2019-12-10）.
^ Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499 （English）.
^ Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627 （English）.
^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285

[1] Seltman, Howard J. Experimental Design and Analysis (PDF). 2008-09-08: 227 [2024-04-29]. （原始内容存档 (PDF)于2016-11-30）.

[:0-2] Statistical Sampling and Regression: Simple Linear Regression. Columbia University. [2016-10-17]. （原始内容存档于2017-12-11）. When one independent variable is used in a regression, it is called a simple regression;(...)

[3] Lane, David M. Introduction to Statistics (PDF). : 462 [2024-04-29]. （原始内容存档 (PDF)于2019-12-10）.

[4] Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499 （English）.

[5] Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627 （English）.

[6] Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285

[1]

[2]

[3]

[4]

[5]

[6]