回歸分析
迴歸分析(英語:Regression Analysis)是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具體的來說,回歸分析可以幫助人們了解在只有一個自變量變化時因變量的變化量。一般來說,通過回歸分析我們可以由給出的自變量估計因變量的條件期望。
迴歸分析是建立被解釋變數(或稱應變數、依變數、反應變數)與解釋變數(或稱自變數、獨立變數)之間關係的模型。簡單線性回歸使用一個自變量,複迴歸使用超過一個自變量()。
起源
編輯回歸的最早形式是最小二乘法,由1805年的勒讓德(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒讓德和高斯都將該方法應用於從天文觀測中確定關於太陽的物體的軌道(主要是彗星,但後來是新發現的小行星)的問題。 高斯在1821年發表了最小二乘理論的進一步發展[3],包括高斯-馬爾可夫定理的一個版本。
「迴歸」一詞最早由法蘭西斯·高爾頓(Francis Galton)所使用[4][5]。他曾對親子間的身高做研究,發現父母的身高雖然會遺傳給子女,但子女的身高卻有逐漸「回歸到中等(即人的平均值)」的現象。不過現在的迴歸已經和當初的意義不盡相同。
在1950年代和60年代,經濟學家使用機械電子桌面計算器來計算回歸。在1970年之前,這種計算方法有時需要長達24小時才能得出結果[6]。
迴歸分析原理
編輯- 目的在於找出一條最能夠代表所有觀測資料的函數曲線(迴歸估計式)。
- 用此函數代表因變數和自變數之間的關係。
母數估計
編輯回歸模型
編輯回歸模型主要包括以下變量:
回歸模型將 和一個關於 和 的函數關聯起來。
在不同的應用領域有各自不同的術語代替這裡的「自變量」和「因變量」。
這個估計值通常寫作: 。
在進行回歸分析時,函數 的形式必須預先指定。有時函數 的形式是在對 和 關係的已有知識上建立的,而不是在數據的基礎之上。如果沒有這種已有知識,那麼就要選擇一個靈活和便於回歸的 的形式。
假設現在未知向量 的維數為k。為了進行回歸分析,必須要先有關於 的信息:
- 如果以 的形式給出了 個數據點,當 時,大多數傳統的回歸分析方法都不能進行,因為數據量不夠導致回歸模型的系統方程不能完全確定 。
- 如果恰好有 個數據點,並且函數 的形式是線性的,那麼方程 能精確求解。這相當於解一個有 個未知量和 個方程的方程組。在 線性無關的情況下,這個方程組有唯一解。但如果 是非線性形式的,解可能有多個或不存在。
- 實際中 的情況占大多數。這種情況下,有足夠的信息用於估計一個與數據最接近的 值,這時當回歸分析應用於這些數據時,可以看作是解一個關於 的超定方程。
在最後一種情況下,回歸分析提供了一種完成以下任務的工具: ⒈找出一個未知量 的解使因變量 的預測值和實際值差別最小(又稱最小二乘法)。
⒉在特定統計假設下,回歸分析使用數據中的多餘信息給出關於因變量 和未知量 之間的關係。
迴歸分析的種類
編輯簡單線性回歸
編輯簡單線性迴歸(英語:simple linear regression)
- 應用時機
- 以單一變數預測
- 判斷兩變數之間相關的方向和程度
複迴歸(或多變量迴歸)
編輯複回歸分析(英語:multiple regression analysis)是簡單線性迴歸的一種延伸應用,用以瞭解一個依變項與兩組以上自變項的函數關係。
對數線性迴歸
編輯對數線性迴歸(英語:Log-linear model),是將解釋變項(實驗設計中的自變項)和反應變項(實驗設計中的依變項)都取對數值之後再進行線性迴歸,所以依據解釋變項的數量,可能是對數簡單線性迴歸,也可能是對數複迴歸。
非線性迴歸
編輯對數幾率回歸
編輯對數幾率回歸(英語:Logistic Regression)
偏迴歸
編輯偏迴歸(英語:Partial Regression)
用於研究單個自變數對因變數的影響,同時控制其他自變數的影響。它通常應用在多元迴歸模型中,以解決自變數之間存在共線性時的問題,或者用於探索自變數之間的相互作用。
自迴歸
編輯自迴歸滑動平均模型
編輯差分自迴歸滑動平均模型
編輯向量自迴歸模型
編輯參閱
編輯參考資料
編輯- ^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (頁面存檔備份,存於網際網路檔案館), Firmin Didot, Paris, 1805. 「Sur la Méthode des moindres quarrés」 appears as an appendix.
- ^ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
- ^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae (頁面存檔備份,存於網際網路檔案館). (1821/1823)
- ^ Mogull, Robert G. Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. 2004: 59. ISBN 0-7575-1181-3.
- ^ Galton, Francis. Kinship and Correlation (reprinted 1989). Statistical Science (Institute of Mathematical Statistics). 1989, 4 (2): 80–86. JSTOR 2245330. doi:10.1214/ss/1177012581.
- ^ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? (頁面存檔備份,存於網際網路檔案館) March 2006. Accessed 2011-12-03.