Davis-Kahan定理(Davis-Kahan theorem) 是随机矩阵分析中的一个重要的基础性定理。它的基本内容是,如果两个矩阵在某种合适的模之下相近,且有足够的特征裂隙 ,那么它们相应的特征向量子空间也相似。
考虑两个单位列正交矩阵
V
,
V
^
∈
R
n
×
d
{\displaystyle V,{\hat {V}}\in \mathbb {R} ^{n\times d}}
(“单位列正交”意为:其满足
V
T
V
=
V
^
T
V
^
=
I
d
{\displaystyle V^{T}V={\hat {V}}^{T}{\hat {V}}=I_{d}}
) 之列向量分别张成的线性子空间,那么这两个子空间的张角,是由一个矩阵所表示的(显然这是如下熟知的特殊情形之概念上的拓展:
d
=
1
{\displaystyle d=1}
时,通常用一个数值表示两个向量之间的张角),式子如下:
Θ
(
V
,
V
^
)
=
D
i
a
g
o
n
a
l
(
arccos
⟨
V
⋅
1
,
V
^
⋅
1
⟩
,
…
,
arccos
⟨
V
⋅
d
,
V
^
⋅
d
⟩
)
{\displaystyle \Theta (V,{\hat {V}})=\mathrm {Diagonal} (\arccos \langle V_{\cdot 1},{\hat {V}}_{\cdot 1}\rangle ,\ldots ,\arccos \langle V_{\cdot d},{\hat {V}}_{\cdot d}\rangle )}
上式中,“
Θ
{\displaystyle \Theta }
”是一个数学运算,表示线性空间之间的张角。
有了线性空间之间张角的定义,便可以开始陈述定理内容。设
Σ
,
Σ
^
∈
R
p
×
p
{\displaystyle \Sigma ,{\hat {\Sigma }}\in \mathbb {R} ^{p\times p}}
是两个对称的随机矩阵,其特征值记为
λ
1
≥
⋯
≥
λ
p
{\displaystyle \lambda _{1}\geq \cdots \geq \lambda _{p}}
和
λ
^
1
≥
⋯
≥
λ
^
p
{\displaystyle {\hat {\lambda }}_{1}\geq \cdots \geq {\hat {\lambda }}_{p}}
。对任何
(
r
,
s
)
:
1
≤
r
≤
s
≤
p
{\displaystyle (r,s):1\leq r\leq s\leq p}
,考虑第
{
λ
r
,
…
,
λ
s
}
{\displaystyle \{\lambda _{r},\ldots ,\lambda _{s}\}}
这总共
s
−
r
+
1
{\displaystyle s-r+1}
个特征值之对应的特征向量所张成的线性子空间,将它记为
V
{\displaystyle V}
,类似地定义
V
^
{\displaystyle {\hat {V}}}
。
下面定义定理中最重要的量,即特征裂隙
δ
{\displaystyle \delta }
:
δ
=
inf
{
|
λ
^
−
λ
|
:
λ
∈
[
λ
s
,
λ
r
]
,
λ
^
∈
(
−
∞
,
λ
^
s
+
1
]
∪
[
λ
^
r
−
1
,
∞
)
}
{\displaystyle \delta =\inf \left\{|{\hat {\lambda }}-\lambda |:\lambda \in [\lambda _{s},\lambda _{r}],{\hat {\lambda }}\in (-\infty ,{\hat {\lambda }}_{s+1}]\cup [{\hat {\lambda }}_{r-1},\infty )\right\}}
定理的结论是,如果
δ
>
0
{\displaystyle \delta >0}
,那么有如下不等式:
‖
sin
Θ
(
V
^
,
V
)
‖
F
≤
‖
Σ
^
−
Σ
‖
F
δ
{\displaystyle \|\sin \Theta ({\hat {V}},V)\|_{F}\leq {\frac {\|{\hat {\Sigma }}-\Sigma \|_{F}}{\delta }}}
其中
‖
⋅
‖
F
{\displaystyle \|\cdot \|_{F}}
表示Frobenius范数 ,即将矩阵的所有元素平方求和后,再开根号。[ 1]
定理的Yu-Wang-Samworth变体版本
编辑
Davis-Kahan定理的经典版本有一些可改进之处,主要在于正特征裂隙假设,是一个同时牵涉两个矩阵的特征值
λ
{\displaystyle \lambda }
和
λ
^
{\displaystyle {\hat {\lambda }}}
的条件,这对其应用的方便性造成负面影响。余怡、王腾耀和Richard Samworth于2014年发现如下变体[ 2] ,其最大特色是其只需其中一个矩阵满足正特征裂隙条件。
沿用上面经典版本定理的记号,另记
d
=
s
−
r
+
1
{\displaystyle d=s-r+1}
,并用如下的特征裂隙条件代替原定理中的
δ
>
0
{\displaystyle \delta >0}
:
min
(
λ
r
−
1
−
λ
r
,
λ
s
−
λ
s
+
1
)
>
0
{\displaystyle \min(\lambda _{r-1}-\lambda _{r},\lambda _{s}-\lambda _{s+1})>0}
Yu-Wang-Samworth定理的结论,按经典版的
sin
Θ
{\displaystyle \sin \Theta }
语言,陈述如下:
‖
sin
Θ
(
V
^
,
V
)
‖
F
≤
2
min
(
d
1
/
2
‖
Σ
^
−
Σ
‖
,
‖
Σ
^
−
Σ
‖
F
)
min
(
λ
r
−
1
−
λ
r
,
λ
s
−
λ
s
+
1
)
{\displaystyle \|\sin \Theta ({\hat {V}},V)\|_{F}\leq {\frac {2\min \left(d^{1/2}\|{\hat {\Sigma }}-\Sigma \|,\|{\hat {\Sigma }}-\Sigma \|_{F}\right)}{\min(\lambda _{r-1}-\lambda _{r},\lambda _{s}-\lambda _{s+1})}}}
其中,
‖
⋅
‖
{\displaystyle \|\cdot \|}
表示矩阵的谱范数,即其最大奇异值。
进一步,按矩阵论语言,有如下更显式的结论:存在一个正交矩阵
O
^
∈
R
d
×
d
{\displaystyle {\hat {O}}\in \mathbb {R} ^{d\times d}}
(“正交”是指其满足
O
T
O
=
I
d
{\displaystyle O^{T}O=I_{d}}
),使得:
‖
V
^
O
^
−
V
‖
F
≤
2
3
/
2
min
(
d
1
/
2
‖
Σ
^
−
Σ
‖
,
‖
Σ
^
−
Σ
‖
F
)
min
(
λ
r
−
1
−
λ
r
,
λ
s
−
λ
s
+
1
)
{\displaystyle \|{\hat {V}}{\hat {O}}-V\|_{F}\leq {\frac {2^{3/2}\min \left(d^{1/2}\|{\hat {\Sigma }}-\Sigma \|,\|{\hat {\Sigma }}-\Sigma \|_{F}\right)}{\min(\lambda _{r-1}-\lambda _{r},\lambda _{s}-\lambda _{s+1})}}}
虽然Davis-Kahan定理大多数的应用是套用到随机矩阵上,但要注意定理本身并不局限于随机矩阵,无论定理内容中出现的矩阵是常数矩阵还是随机矩阵(抑或是一个确定一个随机),只要假设条件满足,定理的结论都成立(而非仅以大概率成立或渐近成立)。
Davis-Kahan定理拥有广泛的应用,是谱聚类 方法的理论基础,在统计学习和统计网络分析的很多涉及聚类问题的研究中,占据重要地位。[ 3] [ 4]
^ G. Stewart; Ji-Guang Sun. Matrix perturbation theory. Academic Press. ISBN 9780126702309 .
^ Yu, Y.; Wang, T.; Samworth, R. J. A useful variant of the Davis–Kahan theorem for statisticians. Biometrika. 2015-06, 102 (2): 315–323. doi:10.1093/biomet/asv008 .
^ Rohe, Karl; Chatterjee, Sourav; Yu, Bin. Spectral clustering and the high-dimensional stochastic blockmodel . The Annals of Statistics. 2011-08, 39 (4): 1878–1915. doi:10.1214/11-AOS887 .
^ Lei, Jing; Rinaldo, Alessandro. Consistency of spectral clustering in stochastic block models. The Annals of Statistics. 2015-02, 43 (1): 215–237. doi:10.1214/14-AOS1274 .