概率论资讯论中,两个随机变量互信息(mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“资讯量”(单位通常为位元)。互信息的概念与随机变量的紧密相关,资讯论中的基本概念,它量化的是随机变量中所包含的“资讯量”。

独立的(H(X),H(Y)), 联合的(H(X,Y)), 以及一对带有互信息 I(X; Y) 的相互关联的子系统 X,Y 的条件熵。

MI不仅仅是度量实值随机变量和线性相关性(如相关系数),它更为通用。MI决定了随机变量联合分布的边缘分布的乘积之间的差异。MI是点互信息(Pointwise Mutual Information英语pointwise mutual information,PMI)的期望克劳德·香农在他的论文A Mathematical Theory of Communication英语A Mathematical Theory of Communication中定义并分析了这个度量,但是当时他并没有将其称为“互信息”。这个词后来由罗伯特·法诺[1]创造。互信息也称为资讯增益

互信息的定义

编辑

设随机变量 是空间 中的一对随机变量。若他们的联合分布是 ,边缘分布分别是  ,那么,它们之间的互信息可以定义为:

 

其中, 为KL散度(Kullback–Leibler divergence)。注意,根据KL散度的性质,若联合分布 等于边缘分布  的乘积,则 ,即当  相互独立的时候,观测到Y对于我们预测X没有任何帮助,此时他们的互信息为0。

离散变量的互信息

编辑

离散随机变量 X 和 Y 的互信息可以计算为:

 

其中 p(x, y) 是 XY 的联合概率质量函数,而    分别是 XY 的边缘概率质量函数。

连续变量的互信息

编辑

连续随机变量的情形下,求和被替换成了二重定积分

 

其中 p(x, y) 当前是 XY 的联合概率密度函数,而    分别是 XY 的边缘概率密度函数。

如果对数以 2 为基底,互信息的单位是bit

直观上,互信息度量 XY 共享的资讯:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 XY 相互独立,则知道 X 不对 Y 提供任何资讯,反之亦然,所以它们的互信息为零。在另一个极端,如果 XY 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有资讯被 XY 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 XY 为相同随机变量时。)

互信息是 XY联合分布相对于假定 XY 独立情况下的联合分布之间的内在依赖性。 于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 XY 为独立随机变量。从一个方向很容易看出:当 XY 独立时,p(x,y) = p(x) p(y),因此:

 

此外,互信息是非负的(即  ; 见下文),而且是对称的(即  )。

与其他量的关系

编辑

互信息又可以等价地表示成

 

其中    是边缘H(X|Y) 和 H(Y|X) 是条件熵,而 H(X,Y) 是 XY联合熵。注意到这组关系和并集、差集和交集的关系类似,于是用Venn图表示。

在互信息定义的基础上使用琴生不等式,我们可以证明 I(X;Y) 是非负的,因此  。这里我们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:

 

上面其他性质的证明类似。

直观地说,如果把熵 H(Y) 看作一个随机变量于不确定度的量度,那么 H(Y|X) 就是"在已知 X 事件后Y事件会发生"的不确定度。于是第一个等式的右边就可以读作“将"Y事件的不确定度",减去 --- "在基于X事件后Y事件因此发生的不确定度"”。

这证实了互信息的直观意义为: "因X而有Y事件"的熵( 基于已知随机变量的不确定性) 在"Y事件"的熵之中具有多少影响地位( "Y事件所具有的不确定性" 其中包含了多少 "Y|X事件所具有的不确性" ),意即"Y具有的不确定性"有多少程度是起因于X事件;

    舉例來說,當 I(X;Y) = 0時,也就是 H(Y) = H(Y|X)時,即代表此時 "Y的不確定性" 即為 "Y|X的不確定性",這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性

所以具体的解释就是: 互信息越小,两个来自不同事件空间的随机变量彼此之间的关系性越低; 互信息越高,关系性则越高 。


注意到离散情形 H(X|X) = 0,于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的资讯“的基本原理。

互信息也可以表示为两个随机变量的边缘分布 XY 的乘积 p(x) × p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵

 

此外,令 p(x|y) = p(x, y) / p(y)。则

 

注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式   现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 YX条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,资讯增益越大。

连续互信息的量化

编辑

对连续型随机变量量化的定义如下:

 

量化后的随机变量 :

 

则,

 

 

 

广义而言,我们可以将互信息定义在有限多个连续随机变量值域划分

 为连续型随机变量的值域, , 其中  划分所构成的集合,意即 

 量化连续型随机变量 后,所得结果为离散型随机变量,

 

对于两连续型随机变量X、Y,其划分分别为P、Q,则其互信息可表示为:

 

参见

编辑

注释

编辑
  1. ^ Kreer, J. G. A question of terminology. IRE Transactions on Information Theory. 1957, 3 (3): 208. doi:10.1109/TIT.1957.1057418. 

参考文献

编辑