考慮前面例子中的矩陣M 。M 的若爾當標準型可以寫成P −1 MP = J ,即
M
P
=
P
J
{\displaystyle \;MP=PJ}
其中變換矩陣 P 的四個列向量為:p i , i = 1, ..., 4,於是
M
[
p
1
p
2
p
3
p
4
]
=
[
p
1
p
2
p
3
p
4
]
[
1
0
0
0
0
2
0
0
0
0
4
1
0
0
0
4
]
=
[
p
1
2
p
2
4
p
3
p
3
+
4
p
4
]
{\displaystyle M{\begin{bmatrix}p_{1}&p_{2}&p_{3}&p_{4}\end{bmatrix}}={\begin{bmatrix}p_{1}&p_{2}&p_{3}&p_{4}\end{bmatrix}}{\begin{bmatrix}1&0&0&0\\0&2&0&0\\0&0&4&1\\0&0&0&4\end{bmatrix}}={\begin{bmatrix}p_{1}&2p_{2}&4p_{3}&p_{3}+4p_{4}\end{bmatrix}}}
也就是:
(
M
−
1
I
)
p
1
=
0
,
(
M
−
2
I
)
p
2
=
0
{\displaystyle \;(M-1I)p_{1}=0,\;\,(M-2I)p_{2}=0}
(
M
−
4
I
)
p
3
=
0
,
(
M
−
4
I
)
p
4
=
p
3
{\displaystyle \;(M-4I)p_{3}=0,\;\,(M-4I)p_{4}=p_{3}}
對於i = 1、2、3,
p
i
{\displaystyle p_{i}}
都是某個特徵值所對應的特徵向量:
p
i
∈
Ker
(
M
−
λ
I
)
{\displaystyle p_{i}\in \operatorname {Ker} (M-\lambda I)}
。然而,當i =4時,
p
4
{\displaystyle p_{4}}
並不是特徵值4所對應的特徵向量。儘管如此:
(
M
−
4
I
)
2
p
4
=
(
M
−
4
I
)
p
3
=
0
{\displaystyle \;(M-4I)^{2}p_{4}=(M-4I)p_{3}=0}
於是
p
4
∈
Ker
(
M
−
λ
I
)
2
{\displaystyle p_{4}\in \operatorname {Ker} (M-\lambda I)^{2}}
。像
p
4
{\displaystyle p_{4}}
這樣的向量被稱為M 的廣義特徵向量 。
給定一個特徵值
λ
{\displaystyle \scriptstyle \lambda }
,它對應的若爾當塊
J
λ
,
m
{\displaystyle \displaystyle J_{\lambda ,m}}
:
[
λ
1
0
⋯
0
0
λ
1
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
λ
1
0
0
0
0
λ
]
{\displaystyle {\begin{bmatrix}\lambda &1&0&\cdots &0\\0&\lambda &1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&\lambda &1\\0&0&0&0&\lambda \\\end{bmatrix}}}
對應着一個由廣義特徵向量所張成的子空間,因為對應的基底
e
λ
,
1
,
e
λ
,
2
,
⋯
,
e
λ
,
m
{\displaystyle \displaystyle e_{\lambda ,1},e_{\lambda ,2},\cdots ,e_{\lambda ,m}}
滿足:
(
M
−
λ
I
)
e
λ
,
1
=
0
,
(
M
−
λ
I
)
e
λ
,
2
=
e
λ
,
1
,
⋯
,
(
M
−
λ
I
)
e
λ
,
m
=
e
λ
,
m
−
1
{\displaystyle \;(M-\lambda I)e_{\lambda ,1}=0,\;(M-\lambda I)e_{\lambda ,2}=e_{\lambda ,1},\cdots ,(M-\lambda I)e_{\lambda ,m}=e_{\lambda ,m-1}}
也就是說
(
M
−
λ
I
)
e
λ
,
1
=
0
,
(
M
−
λ
I
)
2
e
λ
,
2
=
0
,
⋯
,
(
M
−
λ
I
)
m
e
λ
,
m
=
0
{\displaystyle \;(M-\lambda I)e_{\lambda ,1}=0,\;(M-\lambda I)^{2}e_{\lambda ,2}=0,\cdots ,(M-\lambda I)^{m}e_{\lambda ,m}=0}
因此,「所有特徵值在
K
{\displaystyle \mathbb {K} }
中的矩陣都相似於某個若爾當標準型」這個命題等價於存在一個由這個矩陣的特徵向量和廣義特徵向量構成的全空間的基底。
當矩陣A 為冪零矩陣 (即存在m 使得
A
m
=
0
{\displaystyle A^{m}=0}
)時,可以證明整個空間總是可以分解為若干個A -循環子空間的直和[ 1] 。所謂的A -循環子空間就是由某個向量v 以及基底:
B
v
=
{
v
,
A
v
,
A
2
v
,
⋯
}
{\displaystyle {\mathit {B}}_{v}=\left\{v,Av,A^{2}v,\cdots \right\}}
線性張成的子空間。顯然,這樣的子空間是A -不變子空間 。同時,注意到
B
v
{\displaystyle {\mathit {B}}_{v}}
是由A 的特徵向量和廣義特徵向量構成的(
∀
j
≥
0
,
A
j
v
∈
Ker
A
m
{\displaystyle \forall j\geq 0,A^{j}v\in \operatorname {Ker} A^{m}}
)。因此在這個循環子空間裡,A 在基底
B
v
{\displaystyle \displaystyle {\mathit {B}}_{v}}
下表示為若爾當塊:
J
v
=
[
0
1
0
⋯
0
0
0
1
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
0
1
0
0
0
0
0
]
{\displaystyle J_{v}={\begin{bmatrix}0&1&0&\cdots &0\\0&0&1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&0&1\\0&0&0&0&0\\\end{bmatrix}}}
因此A 在所有這樣的基底下可以表示為由若爾當塊組成的分塊對角矩陣,即若爾當標準型:
J
=
[
J
v
1
0
0
⋯
0
0
J
v
2
0
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
J
v
s
−
1
0
0
0
0
0
J
v
s
]
{\displaystyle J={\begin{bmatrix}J_{v_{1}}&0&0&\cdots &0\\0&J_{v_{2}}&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&J_{v_{s-1}}&0\\0&0&0&0&J_{v_{s}}\\\end{bmatrix}}}
下面用數學歸納法 證明:所有特徵值在
K
{\displaystyle \mathbb {K} }
中的n × n 的矩陣都相似於某個若爾當標準型。
n = 1的情況顯然。對於
n
>
1
{\displaystyle n>1}
考慮n × n 矩陣A 。對於A 的一個特徵值λ,設s 為λ的幾何重數。設線性變換
(
A
−
λ
I
)
s
{\displaystyle (A-\lambda I)^{s}}
的像空間為
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
,這是關於A 的一個不變子空間 。因為λ是特徵值,
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
的空間維數r 嚴格小於n 。記
A
′
{\displaystyle \scriptstyle A^{\prime }}
為A 在子空間限制
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
上的部分。根據歸納假設存在一個基底:{p 1 , ..., p r }使得
A
′
{\displaystyle \scriptstyle A^{\prime }}
在這個基底上為若爾當標準型。
接下來考慮子空間
Ker
(
A
−
λ
I
)
s
{\displaystyle \operatorname {Ker} (A-\lambda I)^{s}}
,只要能夠證明整個空間可以分為:
C
n
=
I
m
(
A
−
λ
I
)
s
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}}
由於
K
e
r
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}}
是一個A -不變子空間,在上面
A
−
λ
I
{\displaystyle A-\lambda I}
是冪零矩陣,因此可以寫成若爾當標準型:
J
=
[
J
v
1
0
0
⋯
0
0
J
v
2
0
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
0
J
v
s
]
{\displaystyle J={\begin{bmatrix}J_{v_{1}}&0&0&\cdots &0\\0&J_{v_{2}}&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&0&J_{v_{s}}\\\end{bmatrix}}}
而加上
λ
I
{\displaystyle \displaystyle \lambda I}
後還是若爾當標準型。因此,A 在
K
e
r
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}}
和
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
上都能寫成若爾當標準型,從而A 相似於某個若爾當標準型。
利用歸納法可知所有的n × n 的矩陣都相似於某個若爾當標準型。
下面證明:
C
n
=
I
m
(
A
−
λ
I
)
s
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}}
設A 的最小多項式為
π
A
{\displaystyle \pi _{A}}
,並將其寫成
π
A
=
(
X
−
λ
I
)
s
⋅
Q
{\displaystyle \pi _{A}=(X-\lambda I)^{s}\cdot Q}
。於是
Q
{\displaystyle Q}
和
(
X
−
λ
I
)
s
{\displaystyle (X-\lambda I)^{s}}
互素。於是根據裴蜀定理 ,存在多項式:a 和b 使得
a
(
X
−
λ
I
)
s
+
b
Q
=
1
{\displaystyle a(X-\lambda I)^{s}+bQ=1}
。每個向量u 都可以寫成:
u
=
a
(
A
−
λ
I
)
s
(
u
)
+
b
Q
(
A
)
(
u
)
{\displaystyle \displaystyle u=a(A-\lambda I)^{s}(u)+bQ(A)(u)}
並且
Q
(
A
)
(
a
(
A
−
λ
I
)
s
(
u
)
)
=
(
Q
(
A
−
λ
I
)
s
)
(
a
(
u
)
)
=
π
A
(
u
)
=
0
{\displaystyle \displaystyle Q(A)(a(A-\lambda I)^{s}(u))=(Q(A-\lambda I)^{s})(a(u))=\pi _{A}(u)=0}
,同樣地
(
A
−
λ
I
)
s
(
b
Q
(
A
)
(
u
)
)
=
(
(
A
−
λ
I
)
s
Q
)
(
b
(
u
)
)
=
π
A
(
u
)
=
0
{\displaystyle \displaystyle (A-\lambda I)^{s}(bQ(A)(u))=((A-\lambda I)^{s}Q)(b(u))=\pi _{A}(u)=0}
,因此
a
(
A
−
λ
I
)
s
(
u
)
∈
K
e
r
(
Q
(
A
)
)
,
b
Q
(
A
)
(
u
)
∈
K
e
r
(
A
−
λ
I
)
s
{\displaystyle a(A-\lambda I)^{s}(u)\in \mathrm {Ker} (Q(A)),\;bQ(A)(u)\in \mathrm {Ker} (A-\lambda I)^{s}}
,也就是說:
C
n
=
K
e
r
(
Q
(
A
)
)
+
K
e
r
(
A
−
λ
I
)
s
{\displaystyle \displaystyle C^{n}=\mathrm {Ker} (Q(A))+\mathrm {Ker} (A-\lambda I)^{s}}
另一方面,任意
v
∈
K
e
r
(
A
−
λ
I
)
s
∩
K
e
r
(
Q
(
A
)
)
{\displaystyle v\in \mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))}
,
v
=
a
(
A
−
λ
I
)
s
(
v
)
+
b
Q
(
A
)
(
v
)
=
0
+
0
=
0
{\displaystyle \displaystyle v=a(A-\lambda I)^{s}(v)+bQ(A)(v)=0+0=0}
。也就是說:
K
e
r
(
A
−
λ
I
)
s
∩
K
e
r
(
Q
(
A
)
)
=
0
{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))={0}}
。綜上所述,
C
n
=
K
e
r
(
Q
(
A
)
)
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Ker} (Q(A))\oplus \mathrm {Ker} (A-\lambda I)^{s}}
然而
∀
u
∈
I
m
(
A
−
λ
I
)
s
{\displaystyle \forall u\in \mathrm {Im} (A-\lambda I)^{s}}
,
Q
(
A
)
(
u
)
=
0
{\displaystyle \displaystyle Q(A)(u)=0}
,從而
I
m
(
A
−
λ
I
)
s
⊂
K
e
r
(
Q
(
A
)
)
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}\subset \mathrm {Ker} (Q(A))}
。而根據秩-零化度定理 ,
K
e
r
(
Q
(
A
)
)
{\displaystyle \mathrm {Ker} (Q(A))}
和
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
維數相等,所以兩者完全相等。於是
C
n
=
I
m
(
A
−
λ
I
)
s
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}}
從而命題得證。
如果矩陣的係數域是一個代數閉域 ,那麼由於其特徵值是特徵多項式 的根,所以也在係數域中。於是只要係數域是一個代數閉域,所有的矩陣都相似於若爾當標準型。特別的,所有復係數矩陣都可以簡化為若爾當標準型,因為複數域是代數封閉的。
所有的若爾當標準型都可以分解成一個對角矩陣D 和一個只有對角線上一排為1的矩陣N 的和。注意,這兩個矩陣是不可交換的,因為對角矩陣D 不一定是數量矩陣。矩陣N 是一個冪零矩陣。因此,每個相似於若爾當標準型的矩陣都可以寫成可交換的一個對角矩陣和一個冪零矩陣的和。因為與對角矩陣和冪零矩陣相似的矩陣仍然是對角矩陣和冪零矩陣。換句話說,只要一個矩陣的特徵值都在它的係數域裡(或者說它的最小多項式或特徵多項式可以分解成一次項的乘積),就可以將這個矩陣分解成一個對角矩陣和一個冪零矩陣的和,但要注意這兩個矩陣可以交換。當對角矩陣為數量矩陣時,在計算矩陣的指數 時是很方便的(可以用二項式展開)。
用若爾當標準型以及直接的計算可以得出:如果n × n 矩陣A 的特徵值為:λ1 , ..., λn ,那麼對於多項式:p ,矩陣p (A )的特徵值是:p (λ1 ), ..., p (λn )。
凱萊-哈密爾頓定理 斷言任意矩陣A 都是特徵方程的根:如果p 是A 的特徵多項式 ,那麼p (A ) = 0。這個定理一樣可以用若爾當標準型直接計算得出。
方塊矩陣A 的最小多項式 是使得m (A ) = 0的非常數首一多項式 中次數最小者。另一種定義是:所有使得m (A ) = 0的多項式構成主理想環 C [x ]的一個理想 I ,而m 則是這個理想的產生子。
對於有若爾當標準型的矩陣A ,其最小多項式以其特徵值為根,並且由若爾當標準型的形狀可以看出,每個特徵值的重數是若爾當標準型中屬於這個特徵值的最大的若爾當塊的維數。
反之已知矩陣A 的最小多項式並不能知道其若爾當標準型。要確定矩陣A 的標準型需要用到所謂的初等因子 。矩陣A 的一個初等因子是它的某一個若爾當塊的特徵多項式(或最小多項式,對於若爾當塊兩者一樣)。如果所有的初等因子都是一次多項式,那麼A 可對角化。
一個n × n 的矩陣A 的若爾當標準型是分塊對角矩陣,因此給出了一個將n 維歐幾里得空間 分解為矩陣A 的不變子空間的具體方法。每個若爾當塊J i 都對應着一個不變子空間:X i 。可以簡記為:
C
n
=
⨁
i
=
1
k
X
i
{\displaystyle \mathbb {C} ^{n}=\bigoplus _{i=1}^{k}X_{i}}
其中的每個X i 都是由若爾當塊J i 對應的廣義特徵向量張成的子空間。
注意到這裡的k 並不是不同的特徵值的個數,因為屬於同一個特徵值的若爾當塊可以不止一個。如果要將
C
n
{\displaystyle \mathbb {C} ^{n}}
分解為l 個不變子空間,其中l 是不同特徵值的個數的話,可以將屬於同一個特徵值,比如說
λ
i
{\displaystyle \scriptstyle \lambda _{i}}
的若爾當塊合併:只需使用A 的最小多項式
π
A
{\displaystyle \pi _{A}}
中關於
λ
i
{\displaystyle \scriptstyle \lambda _{i}}
的重根數(代數重數)
ν
(
λ
i
)
{\displaystyle \scriptstyle \nu (\lambda _{i})}
,考慮空間:
Y
i
=
Ker
(
λ
i
−
A
)
ν
(
λ
i
)
.
{\displaystyle \;Y_{i}=\operatorname {Ker} (\lambda _{i}-A)^{\nu (\lambda _{i})}.}
這就是所有的屬於同一個特徵值
λ
i
{\displaystyle \scriptstyle \lambda _{i}}
的若爾當塊所對應的X i ,p 所合併後的空間,因為它包含了所有使得經過
ν
(
λ
i
)
{\displaystyle \scriptstyle \nu (\lambda _{i})}
次
λ
i
−
A
{\displaystyle \scriptstyle \lambda _{i}-A}
操作後會清零的向量集合。如果某個X i 中向量沒有被清零,那麼由於這個向量也不會被其他的特徵值
λ
j
−
A
{\displaystyle \scriptstyle \lambda _{j}-A}
清零,它將不會被
π
A
{\displaystyle \scriptstyle \pi _{A}}
清零,這與
π
A
(
A
)
=
0
{\displaystyle \pi _{A}(A)=0}
矛盾。
於是n 維歐幾里得空間 也可以被分解為
C
n
=
⨁
i
=
1
l
Y
i
{\displaystyle \mathbb {C} ^{n}=\bigoplus _{i=1}^{l}Y_{i}}
其中l 是矩陣A 的不同的特徵值的個數。
值得注意的是,這裡的指標ν(λ )是使得特徵零空間
Ker
(
λ
−
A
)
m
{\displaystyle \operatorname {Ker} (\lambda -A)^{m}}
「穩定」下來的最小次數:
K
e
r
(
λ
−
A
)
ν
(
λ
)
=
Ker
(
λ
−
A
)
m
,
∀
m
≥
ν
(
λ
)
{\displaystyle \mathrm {Ker} (\lambda -A)^{\nu (\lambda )}=\operatorname {Ker} (\lambda -A)^{m},\;\forall m\geq \nu (\lambda )}
這也可以作為代數重數的另一個定義。
N.丹佛,J.T.施瓦茨,《線性算子》第一章:一般理論(Linear Operators, Part I: General Theory ), Interscience, 1958.
Daniel.T. Finkbeiner II,《矩陣與線性變換導論》第三版(Introduction to Matrices and Linear Transformations, Third Edition ), Freeman, 1978.
Gene H. Golub,Charles F. van Loan,《矩陣計算》第三版(Matrix Computations ), Johns Hopkins University Press, Baltimore, 1996.
Gene H. Golub,J. H. Wilkinson,《病態特徵系統以及若爾當標準型計算》(Ill-conditiones Eigensystems and the computation of the Jordan normal form), SIAM Review , vol. 18, nr. 4, pp. 578–619, 1976.
Horn, Roger A.; Johnson, Charles R., 矩阵分析(Matrix Analysis), Cambridge University Press , 1985, ISBN 978-0-521-38632-6 .
Glenn James,Robert C. James,《數學辭典》第四版(Mathematics Dictionary, Fourth Edition ), Van Nostrand Reinhold, 1976.
Saunders MacLane,Garrett Birkhoff,《代數學》(Algebra ), MacMillan, 1967.
Anthony N. Michel,Charles J. Herget,《應用代數和泛函分析》(Applied Algebra and Functional Analysis ), Dover, 1993.
Georgi E. Shilov,《線性代數》(Linear Algebra ), Dover, 1977.
若爾當正規型 (頁面存檔備份 ,存於網際網路檔案館 )