在統計學 中,線性迴歸 (英語:linear regression )是利用稱為線性迴歸方程的最小平方 函數對一個或多個自變量 和應變量 之間關係進行建模的一種迴歸分析 。這種函數是一個或多個稱為迴歸系數的模型參數的線性組合。只有一個自變量的情況稱為簡單迴歸,大於一個自變量情況的叫做多元迴歸 (multivariable linear regression )。[ 1]
在線性迴歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。[ 2] 最常用的線性迴歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性迴歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分佈的分位數作為X的線性函數表示。像所有形式的迴歸分析一樣,線性迴歸也把焦點放在給定X值的y的條件概率分佈,而不是X和y的聯合概率分佈(多元分析領域)。
線性迴歸是迴歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。[ 3] 這是因為線性依賴於其未知參數的模型比非線性依賴於其未知參數的模型更容易擬合,而且產生的估計的統計特性也更容易確定。
線性迴歸有很多實際用途。分為以下兩大類:
如果目標是預測或者映射,線性迴歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。
給定一個變量y和一些變量
X
1
{\displaystyle X_{1}}
,...,
X
p
{\displaystyle X_{p}}
,這些變量有可能與y相關,線性迴歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的
X
j
{\displaystyle X_{j}}
,並識別出哪些
X
j
{\displaystyle X_{j}}
的子集包含了關於y的冗餘資訊。
線性迴歸模型經常用最小平方逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化「擬合缺陷」在一些其他規範里(比如最小絕對誤差迴歸),或者在橋迴歸中最小化最小平方損失函數的懲罰。相反,最小平方逼近可以用來擬合那些非線性的模型。因此,儘管「最小平方法」和「線性模型」是緊密相連的,但他們是不能劃等號的。
線性迴歸的「迴歸」指的是迴歸到平均值 。
帶有一個自變量的線性迴歸
給一個隨機樣本
(
Y
i
,
X
i
1
,
…
,
X
i
p
)
,
i
=
1
,
…
,
n
{\displaystyle (Y_{i},X_{i1},\ldots ,X_{ip}),\,i=1,\ldots ,n}
,一個線性迴歸模型假設迴歸子
Y
i
{\displaystyle Y_{i}}
和迴歸量
X
i
1
,
…
,
X
i
p
{\displaystyle X_{i1},\ldots ,X_{ip}}
之間的關係是除了X的影響以外,還有其他的變數存在。我們加入一個誤差項
ε
i
{\displaystyle \varepsilon _{i}}
(也是一個隨機變量)來捕獲除了
X
i
1
,
…
,
X
i
p
{\displaystyle X_{i1},\ldots ,X_{ip}}
之外任何對
Y
i
{\displaystyle Y_{i}}
的影響。所以一個多變量線性迴歸模型表示為以下的形式:
Y
i
=
β
0
+
β
1
X
i
1
+
β
2
X
i
2
+
…
+
β
p
X
i
p
+
ε
i
,
i
=
1
,
…
,
n
{\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\varepsilon _{i},\qquad i=1,\ldots ,n}
其他的模型可能被認定成非線性模型。一個線性迴歸模型不需要是自變量的線性函數。線性在這裏表示
Y
i
{\displaystyle Y_{i}}
的條件均值在參數
β
{\displaystyle \beta }
裏是線性的。例如:模型
Y
i
=
β
1
X
i
+
β
2
X
i
2
+
ε
i
{\displaystyle Y_{i}=\beta _{1}X_{i}+\beta _{2}X_{i}^{2}+\varepsilon _{i}}
在
β
1
{\displaystyle \beta _{1}}
和
β
2
{\displaystyle \beta _{2}}
裏是線性的,但在
X
i
2
{\displaystyle X_{i}^{2}}
裏是非線性的,它是
X
i
{\displaystyle X_{i}}
的非線性函數。
區分隨機變量和這些變量的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n 個值
(
y
i
,
x
i
1
,
…
,
x
i
p
)
,
i
=
1
,
…
,
n
{\displaystyle (y_{i},x_{i1},\ldots ,x_{ip}),\,i=1,\ldots ,n}
.
我們有
p
+
1
{\displaystyle p+1}
個參數
β
0
,
…
,
β
p
{\displaystyle \beta _{0},\ldots ,\beta _{p}}
需要決定,為了估計這些參數,使用矩陣 表記是很有用的。
Y
=
X
β
+
ε
{\displaystyle Y=X\beta +\varepsilon \,}
其中Y 是一個包括了觀測值
Y
1
,
…
,
Y
n
{\displaystyle Y_{1},\ldots ,Y_{n}}
的列向量,
ε
{\displaystyle \varepsilon }
包括了未觀測的隨機成份
ε
1
,
…
,
ε
n
{\displaystyle \varepsilon _{1},\ldots ,\varepsilon _{n}}
以及迴歸量的觀測值矩陣
X
{\displaystyle X}
:
X
=
(
1
x
11
⋯
x
1
p
1
x
21
⋯
x
2
p
⋮
⋮
⋱
⋮
1
x
n
1
⋯
x
n
p
)
{\displaystyle X={\begin{pmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{pmatrix}}}
X 通常包括一個常數項。
如果X 列之間存在線性相關 ,那麽參數向量
β
{\displaystyle \beta }
就不能以最小平方法估計除非
β
{\displaystyle \beta }
被限制,比如要求它的一些元素之和為0。
樣本 是在總體 之中隨機抽取 出來的。
因變量Y在實直線 上是連續的 ,
殘差項是獨立 且相同 分佈的(iid),也就是說,殘差是獨立隨機的,且服從高斯分佈 。
這些假設意味着殘差項不依賴自變量的值 ,所以
ε
i
{\displaystyle \varepsilon _{i}}
和自變量X(預測變量)之間是相互獨立的。
在這些假設下,建立一個顯式線性迴歸作為條件預期模型的簡單線性迴歸 ,可以表示為:
E
(
Y
i
∣
X
i
=
x
i
)
=
α
+
β
x
i
{\displaystyle {\mbox{E}}(Y_{i}\mid X_{i}=x_{i})=\alpha +\beta x_{i}\,}
迴歸分析的最初目的是估計模型的參數以便達到對數據的最佳擬合。在決定一個最佳擬合的不同標準之中,最小平方法是非常優越的。這種估計可以表示為:
β
^
=
(
X
T
X
)
−
1
X
T
y
{\displaystyle {\hat {\beta }}=(X^{T}X)^{-1}X^{T}y\,}
對於每一個
i
=
1
,
…
,
n
{\displaystyle i=1,\ldots ,n}
,我們用
σ
2
{\displaystyle \sigma ^{2}}
代表誤差項
ε
{\displaystyle \varepsilon }
的方差。一個無偏誤的估計是:
σ
^
2
=
S
n
−
p
,
{\displaystyle {\hat {\sigma }}^{2}={\frac {S}{n-p}},}
其中
S
:=
∑
i
=
1
n
ε
^
i
2
{\displaystyle S:=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}}
是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:
σ
^
2
⋅
n
−
p
σ
2
∼
χ
n
−
p
2
{\displaystyle {\hat {\sigma }}^{2}\cdot {\frac {n-p}{\sigma ^{2}}}\sim \chi _{n-p}^{2}}
其中
χ
n
−
p
2
{\displaystyle \chi _{n-p}^{2}}
服從卡方分佈 ,自由度是
n
−
p
{\displaystyle n-p}
對普通方程的解可以寫為:
β
^
=
(
X
T
X
)
−
1
X
T
y
.
{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X^{T}X)^{-1}X^{T}y} .}
這表示估計項是因變量的線性組合。進一步地說,如果所觀察的誤差服從正態分佈 。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。
β
^
∼
N
(
β
,
σ
2
(
X
T
X
)
−
1
)
{\displaystyle {\hat {\beta }}\sim N(\beta ,\sigma ^{2}(X^{T}X)^{-1})}
其中
N
(
⋅
)
{\displaystyle N(\cdot )}
表示多變量正態分佈 。
參數估計值的標準差 是:
σ
^
j
=
S
n
−
p
[
(
X
T
X
)
−
1
]
j
j
.
{\displaystyle {\hat {\sigma }}_{j}={\sqrt {{\frac {S}{n-p}}\left[\mathbf {(X^{T}X)} ^{-1}\right]_{jj}}}.}
參數
β
j
{\displaystyle \beta _{j}}
的
100
(
1
−
α
)
%
{\displaystyle 100(1-\alpha )\%}
置信區間 可以用以下式子來計算:
β
^
j
±
t
α
2
,
n
−
p
σ
^
j
.
{\displaystyle {\hat {\beta }}_{j}\pm t_{{\frac {\alpha }{2}},n-p}{\hat {\sigma }}_{j}.}
誤差項可以表示為:
r
^
=
y
−
X
β
^
=
y
−
X
(
X
T
X
)
−
1
X
T
y
.
{\displaystyle \mathbf {{\hat {r}}=y-X{\hat {\boldsymbol {\beta }}}=y-X(X^{T}X)^{-1}X^{T}y} .\,}
單變量線性迴歸,又稱簡單線性迴歸(simple linear regression, SLR),是最簡單但用途很廣的迴歸模型。其迴歸式為:
Y
=
α
+
β
X
+
ε
{\displaystyle Y=\alpha +\beta X+\varepsilon }
為了從一組樣本
(
y
i
,
x
i
)
{\displaystyle (y_{i},x_{i})}
(其中
i
=
1
,
2
,
…
,
n
{\displaystyle i=1,\ 2,\ldots ,n}
)之中估計最合適(誤差最小)的
α
{\displaystyle \alpha }
和
β
{\displaystyle \beta }
,通常採用最小平方法,其計算目標為最小化殘差平方和:
∑
i
=
1
n
ε
i
2
=
∑
i
=
1
n
(
y
i
−
α
−
β
x
i
)
2
{\displaystyle \sum _{i=1}^{n}\varepsilon _{i}^{2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}}
使用微分法求極值:將上式分別對
α
{\displaystyle \alpha }
和
β
{\displaystyle \beta }
做一階偏微分,並令其等於0:
{
n
α
+
∑
i
=
1
n
x
i
β
=
∑
i
=
1
n
y
i
∑
i
=
1
n
x
i
α
+
∑
i
=
1
n
x
i
2
β
=
∑
i
=
1
n
x
i
y
i
{\displaystyle \left\{{\begin{array}{lcl}n\ \alpha +\sum \limits _{i=1}^{n}x_{i}\ \beta =\sum \limits _{i=1}^{n}y_{i}\\\sum \limits _{i=1}^{n}x_{i}\ \alpha +\sum \limits _{i=1}^{n}x_{i}^{2}\ \beta =\sum \limits _{i=1}^{n}x_{i}y_{i}\end{array}}\right.}
此二元一次線性方程組可用克萊姆法則 求解,得解
α
^
,
β
^
{\displaystyle {\hat {\alpha }},\ {\hat {\beta }}}
:
β
^
=
n
∑
i
=
1
n
x
i
y
i
−
∑
i
=
1
n
x
i
∑
i
=
1
n
y
i
n
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
=
cov
(
X
,
Y
)
var
(
X
)
{\displaystyle {\hat {\beta }}={\frac {n\sum \limits _{i=1}^{n}x_{i}y_{i}-\sum \limits _{i=1}^{n}x_{i}\sum \limits _{i=1}^{n}y_{i}}{n\sum \limits _{i=1}^{n}x_{i}^{2}-\left(\sum \limits _{i=1}^{n}x_{i}\right)^{2}}}={\frac {\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {{\text{cov}}(X,Y)}{{\text{var}}(X)}}\,}
α
^
=
∑
i
=
1
n
x
i
2
∑
i
=
1
n
y
i
−
∑
i
=
1
n
x
i
∑
i
=
1
n
x
i
y
i
n
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
=
y
¯
−
x
¯
β
^
{\displaystyle {\hat {\alpha }}={\frac {\sum \limits _{i=1}^{n}x_{i}^{2}\sum \limits _{i=1}^{n}y_{i}-\sum \limits _{i=1}^{n}x_{i}\sum \limits _{i=1}^{n}x_{i}y_{i}}{n\sum \limits _{i=1}^{n}x_{i}^{2}-\left(\sum \limits _{i=1}^{n}x_{i}\right)^{2}}}={\bar {y}}-{\bar {x}}{\hat {\beta }}}
S
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
=
∑
i
=
1
n
y
i
2
−
n
(
∑
i
=
1
n
x
i
y
i
)
2
+
(
∑
i
=
1
n
y
i
)
2
∑
i
=
1
n
x
i
2
−
2
∑
i
=
1
n
x
i
∑
i
=
1
n
y
i
∑
i
=
1
n
x
i
y
i
n
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
{\displaystyle S=\sum \limits _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}=\sum \limits _{i=1}^{n}y_{i}^{2}-{\frac {n(\sum \limits _{i=1}^{n}x_{i}y_{i})^{2}+(\sum \limits _{i=1}^{n}y_{i})^{2}\sum \limits _{i=1}^{n}x_{i}^{2}-2\sum \limits _{i=1}^{n}x_{i}\sum \limits _{i=1}^{n}y_{i}\sum \limits _{i=1}^{n}x_{i}y_{i}}{n\sum \limits _{i=1}^{n}x_{i}^{2}-\left(\sum \limits _{i=1}^{n}x_{i}\right)^{2}}}}
σ
^
2
=
S
n
−
2
.
{\displaystyle {\hat {\sigma }}^{2}={\frac {S}{n-2}}.}
協方差矩陣 是:
1
n
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
(
∑
x
i
2
−
∑
x
i
−
∑
x
i
n
)
{\displaystyle {\frac {1}{n\sum _{i=1}^{n}x_{i}^{2}-\left(\sum _{i=1}^{n}x_{i}\right)^{2}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i}&n\end{pmatrix}}}
平均響應 置信區間為:
y
d
=
(
α
+
β
^
x
d
)
±
t
α
2
,
n
−
2
σ
^
1
n
+
(
x
d
−
x
¯
)
2
∑
(
x
i
−
x
¯
)
2
{\displaystyle y_{d}=(\alpha +{\hat {\beta }}x_{d})\pm t_{{\frac {\alpha }{2}},n-2}{\hat {\sigma }}{\sqrt {{\frac {1}{n}}+{\frac {(x_{d}-{\bar {x}})^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}}
預報響應 置信區間為:
y
d
=
(
α
+
β
^
x
d
)
±
t
α
2
,
n
−
2
σ
^
1
+
1
n
+
(
x
d
−
x
¯
)
2
∑
(
x
i
−
x
¯
)
2
{\displaystyle y_{d}=(\alpha +{\hat {\beta }}x_{d})\pm t_{{\frac {\alpha }{2}},n-2}{\hat {\sigma }}{\sqrt {1+{\frac {1}{n}}+{\frac {(x_{d}-{\bar {x}})^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}}
在方差分析 (ANOVA)中,總平方和分解為兩個或更多部分。
總平方和 SST (sum of squares for total) 是:
SST
=
∑
i
=
1
n
(
y
i
−
y
¯
)
2
{\displaystyle {\text{SST}}=\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}
,其中:
y
¯
=
1
n
∑
i
y
i
{\displaystyle {\bar {y}}={\frac {1}{n}}\sum _{i}y_{i}}
同等地:
SST
=
∑
i
=
1
n
y
i
2
−
1
n
(
∑
i
y
i
)
2
{\displaystyle {\text{SST}}=\sum _{i=1}^{n}y_{i}^{2}-{\frac {1}{n}}\left(\sum _{i}y_{i}\right)^{2}}
迴歸平方和 SSReg (sum of squares for regression。也可寫做模型平方和 ,SSM,sum of squares for model) 是:
SSReg
=
∑
(
y
^
i
−
y
¯
)
2
=
β
^
T
X
T
y
−
1
n
(
y
T
u
u
T
y
)
,
{\displaystyle {\text{SSReg}}=\sum \left({\hat {y}}_{i}-{\bar {y}}\right)^{2}={\hat {\boldsymbol {\beta }}}^{T}\mathbf {X} ^{T}\mathbf {y} -{\frac {1}{n}}\left(\mathbf {y^{T}uu^{T}y} \right),}
殘差平方和 SSE (sum of squares for error) 是:
SSE
=
∑
i
(
y
i
−
y
^
i
)
2
=
y
T
y
−
β
^
T
X
T
y
.
{\displaystyle {\text{SSE}}=\sum _{i}{\left({y_{i}-{\hat {y}}_{i}}\right)^{2}}=\mathbf {y^{T}y-{\hat {\boldsymbol {\beta }}}^{T}X^{T}y} .}
總平方和SST又可寫做SSReg和SSE的和:
SST
=
∑
i
(
y
i
−
y
¯
)
2
=
y
T
y
−
1
n
(
y
T
u
u
T
y
)
=
SSReg
+
SSE
.
{\displaystyle {\text{SST}}=\sum _{i}\left(y_{i}-{\bar {y}}\right)^{2}=\mathbf {y^{T}y} -{\frac {1}{n}}\left(\mathbf {y^{T}uu^{T}y} \right)={\text{SSReg}}+{\text{SSE}}.}
迴歸系數 R2 是:
R
2
=
SSReg
SST
=
1
−
SSE
SST
.
{\displaystyle R^{2}={\frac {\text{SSReg}}{\text{SST}}}=1-{\frac {\text{SSE}}{\text{SST}}}.}
一條趨勢線代表着時間序列 數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期內增長或下降。雖然我們可以用肉眼觀察數據點在坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性回歸計算出趨勢線的位置和斜率。
有關吸煙 對死亡率 和發病率 影響的早期證據來自採用了迴歸分析的觀察性研究 。為了在分析觀測數據時減少偽相關 ,除最感興趣的變量之外,通常研究人員還會在他們的迴歸模型里包括一些額外變量。例如,假設有一個迴歸模型,在這個迴歸模型中吸煙行為是我們最感興趣的獨立變量,其相關變量是經數年觀察得到的吸煙者壽命。研究人員可能將社會經濟地位當成一個額外的獨立變量,已確保任何經觀察所得的吸煙對壽命的影響不是由於教育或收入差異引起的。然而,我們不可能把所有可能混淆結果的變量都加入到實證分析中。例如,某種不存在的基因可能會增加人死亡的幾率,還會讓人的吸煙量增加。因此,比起採用觀察數據的迴歸分析得出的結論,隨機對照試驗 常能產生更令人信服的因果關係證據。當可控實驗 不可行時,迴歸分析的衍生,如工具變量 迴歸,可嘗試用來估計觀測數據的因果關係。
資本資產定價模型 利用線性回歸以及Beta系數 的概念分析和計算投資的系統風險。這是從聯繫投資回報和所有風險性資產回報的模型Beta系數直接得出的。
線性迴歸是經濟學的主要實證工具。例如,它是用來預測消費支出,[ 4] 固定投資支出,存貨投資,一國出口產品的購買,[ 5] 進口支出,[ 5] 要求持有流動性資產,[ 6] 勞動力需求、[ 7] 勞動力供給。[ 7]
^ Rencher, Alvin C.; Christensen, William F., Chapter 10, Multivariate regression – Section 10.1, Introduction, Methods of Multivariate Analysis , Wiley Series in Probability and Statistics 709 3rd, John Wiley & Sons: 19, 2012 [2019-05-14 ] , ISBN 9781118391679 , (原始內容存檔 於2019-06-15) .
^ Hilary L. Seal. The historical development of the Gauss linear model. Biometrika. 1967, 54 (1/2): 1–24. JSTOR 2333849 . doi:10.1093/biomet/54.1-2.1 .
^ Yan, Xin, Linear Regression Analysis: Theory and Computing , World Scientific: 1–2, 2009 [2019-05-14 ] , ISBN 9789812834119 , (原始內容存檔 於2019-06-08), Regression analysis ... is probably one of the oldest topics in mathematical statistics dating back to about two hundred years ago. The earliest form of the linear regression was the least squares method, which was published by Legendre in 1805, and by Gauss in 1809 ... Legendre and Gauss both applied the method to the problem of determining, from astronomical observations, the orbits of bodies about the sun.
^ Deaton, Angus. Understanding Consumption . Oxford University Press. 1992. ISBN 978-0-19-828824-4 .
^ 5.0 5.1 Krugman, Paul R. ; Obstfeld, M. ; Melitz, Marc J. International Economics: Theory and Policy 9th global. Harlow: Pearson. 2012. ISBN 9780273754091 .
^ Laidler, David E. W. The Demand for Money: Theories, Evidence, and Problems 4th. New York: Harper Collins. 1993. ISBN 978-0065010985 .
^ 7.0 7.1 Ehrenberg; Smith. Modern Labor Economics 10th international. London: Addison-Wesley. 2008. ISBN 9780321538963 .
書籍
Cohen, J., Cohen P., West, S.G., & Aiken, L.S. Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates. 2003.
Draper, N.R. and Smith, H. Applied Regression Analysis. Wiley Series in Probability and Statistics. 1998.
Robert S. Pindyck and Daniel L. Rubinfeld. Chapter One. Econometric Models and Economic Forecasts. 1998.
Charles Darwin . The Variation of Animals and Plants under Domestication . (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
刊物文章
Pedhazur, Elazar J. Multiple regression in behavioral research: Explanation and prediction 2nd. New York: Holt, Rinehart and Winston. 1982. ISBN 0-03-041760-0 .
Barlow, Jesse L. Chapter 9: Numerical aspects of Solving Linear Least Squares Problems. Rao, C.R. (編). Computational Statistics. Handbook of Statistics 9 . North-Holland. 1993. ISBN 0-444-88096-8 .
Björck, Åke. Numerical methods for least squares problems. Philadelphia: SIAM. 1996. ISBN 0-89871-360-9 .
Goodall, Colin R. Chapter 13: Computation using the QR decomposition. Rao, C.R. (編). Computational Statistics. Handbook of Statistics 9 . North-Holland. 1993. ISBN 0-444-88096-8 .
National Physical Laboratory. Chapter 1: Linear Equations and Matrices: Direct Methods. Modern Computing Methods. Notes on Applied Science 16 2nd. Her Majesty's Stationery Office. 1961.