此条目需要
精通或熟悉相关主题的编者 参与及协助编辑。
(2019年3月5日 ) 请邀请 适合的人士改善本条目 。更多的细节与详情请参见讨论页 。
在数学 中,矩阵微积分 是多元微积分 的一种特殊表达,尤其是在矩阵 空间上进行讨论的时候。它把单个函数对多个变量或者多元函数对单个变量的偏导数 写成向量和矩阵的形式,使其可以被当成一个整体被处理。这使得要在多元函数寻找最大或最小值,又或是要为微分方程 系统寻解的过程大幅简化。这里我们主要使用统计学 和工程学 中的惯用记法,而张量下标记法 更常用于物理学 中。
在本小节中,我们在表示向量和矩阵时,通过用单个变量来表示许多变量的方式,把矩阵记法 的效用发挥到最大。接下来我们用不同字体来区分标量、向量和矩阵。我们使用M (n ,m )来表示包含n 行m 列的n×m 实 矩阵的空间。该空间中的一般矩阵用粗体大写字母表示,例如A ,X ,Y 等。而若该矩阵属于M (n ,1),即列向量 ,则用粗体小写字母表示,如a ,x ,y 等。特别地,M (1,1)中的元素为标量,用小写斜体字母表示,如a ,t ,x 等。X T 表示矩阵转置 ,tr(X )表示矩阵的迹 ,而 det(X )或|X |表示行列式 。除非专门注明,所有函数都默认属于光滑函数 C 1 。 通常字母表前半部分的字母(a, b, c, …)用于表示常量,而后半部分的字母(t, x, y, …)用于表示变量。
由于向量可看成仅有一列的矩阵,最简单的矩阵求导为向量求导。
这里的标记方法可以通过如下方式表达大部分向量微积分 :把n 维向量构成的空间M (n ,1)等同为欧氏空间 R n , 标量M (1,1)等同于R 。对应的向量微积分的概念在每小节末尾列出。
向量
y
=
[
y
1
y
2
⋯
y
m
]
T
{\displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}}
关于标量 x 的导数可以(用分子记法 )写成
∂
y
∂
x
=
[
∂
y
1
∂
x
∂
y
2
∂
x
⋮
∂
y
m
∂
x
]
{\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}}
这里的“分子布局记法”一般指,在表示导数向量(或矩阵)时,该导数的行数等于导数表达式
∂
y
∂
x
{\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}}
中处于分子部分的参数维度,即
y
{\displaystyle \mathbf {y} }
的维度大小
m
{\displaystyle m}
;若采用分母布局记法,则导数的行数等于导数表达式中处于分母部分的参数维度,即
x
{\displaystyle x}
的维度大小。分子布局记法的结果与分母布局记法的结果互为转置关系。
在向量微积分 中,向量
y
{\displaystyle \mathbf {y} }
关于标量
x
{\displaystyle x}
的导数也被称为向量
y
{\displaystyle \mathbf {y} }
的切向量 ,
∂
y
∂
x
{\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}}
。注意这里
y
:
R
→
R
n
{\displaystyle \mathbf {y} :\mathbb {R} \rightarrow \mathbb {R} ^{n}}
。
例子 简单的样例包括欧式空间 中的速度 向量,它是位移 向量(看作关于时间的函数)的切向量 。更进一步而言, 加速度 是速度的切向量。
标量 y 对向量
x
=
[
x
1
x
2
⋯
x
n
]
T
{\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}}
的导数可以(用分子记法 )写成
∂
y
∂
x
=
[
∂
y
∂
x
1
∂
y
∂
x
2
⋯
∂
y
∂
x
n
]
{\displaystyle {\frac {\partial y}{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}&{\frac {\partial y}{\partial x_{2}}}&\cdots &{\frac {\partial y}{\partial x_{n}}}\end{bmatrix}}}
在向量微积分 中,标量y 在的空间R n (其独立坐标是x 的分量)中的梯度 是标量y 对向量x 的导数的转置。在物理学中,电场 是电势 的负梯度 向量。
标量函数f (x )对空间向量x 在单位向量u (在这里表示为列向量)方向上的方向导数 可以用梯度定义:
∇
u
f
(
x
)
=
∇
f
(
x
)
⋅
u
{\displaystyle \nabla _{\mathbf {u} }{f}(\mathbf {x} )=\nabla f(\mathbf {x} )\cdot \mathbf {u} }
使用刚才定义的标量对向量的导数的记法,我们可以把方向导数写作
∇
u
f
=
(
∂
f
∂
x
)
⊤
u
{\displaystyle \nabla _{\mathbf {u} }f=\left({\frac {\partial f}{\partial \mathbf {x} }}\right)^{\top }\mathbf {u} }
这类记法在证明乘法法则和链式法则的时候非常直观,因为它们与我们熟悉的标量导数 的形式较为相似。
前面两种情况可以看作是向量对向量求导在其中一个是一维向量情况下的特例。类似地我们将会发现有关矩阵的求导可被以一种类似的方式化归为向量求导。
向量函数 (分量为函数的向量)
y
=
[
y
1
y
2
⋯
y
m
]
T
{\displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}}
对输入向量
x
=
[
x
1
x
2
⋯
x
n
]
T
{\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}}
的导数,可以(用分子记法 ) 写作
∂
y
∂
x
=
[
∂
y
1
∂
x
1
∂
y
1
∂
x
2
⋯
∂
y
1
∂
x
n
∂
y
2
∂
x
1
∂
y
2
∂
x
2
⋯
∂
y
2
∂
x
n
⋮
⋮
⋱
⋮
∂
y
m
∂
x
1
∂
y
m
∂
x
2
⋯
∂
y
m
∂
x
n
]
{\displaystyle {\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x_{1}}}&{\frac {\partial y_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{1}}{\partial x_{n}}}\\{\frac {\partial y_{2}}{\partial x_{1}}}&{\frac {\partial y_{2}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{2}}{\partial x_{n}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m}}{\partial x_{1}}}&{\frac {\partial y_{m}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{n}}}\\\end{bmatrix}}}
在向量微积分 中,向量函数y 对分量表示一个空间的向量x 的导数也被称为前推 (微分) ,或雅可比矩阵 。
向量函数f 对R n 空间中向量v 的前推为
d
f
(
v
)
=
∂
f
∂
v
d
v
{\displaystyle d\,\mathbf {f} (\mathbf {v} )={\frac {\partial \mathbf {f} }{\partial \mathbf {v} }}d\,\mathbf {v} }
有两种类型的矩阵求导可以被写成相同大小的矩阵:矩阵对标量求导和标量对矩阵求导。它们在解决应用数学的许多领域常见的最小化问题中十分有用。类比于向量求导,相应的概念有切矩阵 和梯度矩阵 。
矩阵函数Y 对标量x 的导数被称为切矩阵 ,(用分子记法 )可写成:
∂
Y
∂
x
=
[
∂
y
11
∂
x
∂
y
12
∂
x
⋯
∂
y
1
n
∂
x
∂
y
21
∂
x
∂
y
22
∂
x
⋯
∂
y
2
n
∂
x
⋮
⋮
⋱
⋮
∂
y
m
1
∂
x
∂
y
m
2
∂
x
⋯
∂
y
m
n
∂
x
]
{\displaystyle {\frac {\partial \mathbf {Y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{11}}{\partial x}}&{\frac {\partial y_{12}}{\partial x}}&\cdots &{\frac {\partial y_{1n}}{\partial x}}\\{\frac {\partial y_{21}}{\partial x}}&{\frac {\partial y_{22}}{\partial x}}&\cdots &{\frac {\partial y_{2n}}{\partial x}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m1}}{\partial x}}&{\frac {\partial y_{m2}}{\partial x}}&\cdots &{\frac {\partial y_{mn}}{\partial x}}\\\end{bmatrix}}}
定义在元素是独立变量的p ×q 矩阵X 上的标量函数y 对X 的导数可以(用分子记法 )写作
∂
y
∂
X
=
[
∂
y
∂
x
11
∂
y
∂
x
21
⋯
∂
y
∂
x
p
1
∂
y
∂
x
12
∂
y
∂
x
22
⋯
∂
y
∂
x
p
2
⋮
⋮
⋱
⋮
∂
y
∂
x
1
q
∂
y
∂
x
2
q
⋯
∂
y
∂
x
p
q
]
{\displaystyle {\frac {\partial y}{\partial \mathbf {X} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{11}}}&{\frac {\partial y}{\partial x_{21}}}&\cdots &{\frac {\partial y}{\partial x_{p1}}}\\{\frac {\partial y}{\partial x_{12}}}&{\frac {\partial y}{\partial x_{22}}}&\cdots &{\frac {\partial y}{\partial x_{p2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y}{\partial x_{1q}}}&{\frac {\partial y}{\partial x_{2q}}}&\cdots &{\frac {\partial y}{\partial x_{pq}}}\\\end{bmatrix}}}
定义矩阵上的重要的标量函数包括矩阵的迹 和行列式 。
类比于向量微积分 ,这个导数常被写成如下形式:
∇
X
y
(
X
)
=
∂
y
(
X
)
∂
X
{\displaystyle \nabla _{\mathbf {X} }y(\mathbf {X} )={\frac {\partial y(\mathbf {X} )}{\partial \mathbf {X} }}}
类似地,标量函数f (X )关于矩阵X 在方向Y 的方向导数 可写成
∇
Y
f
=
tr
(
∂
f
∂
X
Y
)
{\displaystyle \nabla _{\mathbf {Y} }f=\operatorname {tr} \left({\frac {\partial f}{\partial \mathbf {X} }}\mathbf {Y} \right)}
梯度矩阵经常被应用在估计理论 的最小化问题中,比如卡尔曼滤波 算法的推导 ,因此在这些领域中有着重要的地位。
Lax, Peter D. 9. Calculus of Vector- and Matrix-Valued Functions. Linear algebra and its applications 2nd. Hoboken, N.J.: Wiley-Interscience. 2007. ISBN 978-0-471-75156-4 .