微分熵

微分熵是消息理论中的一个概念，是从以离散随机变数所计算出的夏农熵推广，以连续型随机变数计算所得之熵，微分熵与离散随机变数所计算出之夏农熵，皆可代表描述一信息所需码长的下界，然而，微分熵与夏农熵仍存在着某些相异的性质。

定义

令 $X$ 为一连续型随机变数，其几率密度函数为 $f_{X}(x)$ ，其中 $X$ 的支撑集为 $S=\{x\in X|f_{X}(x)>0}\$ 。微分熵 $h_{X}(x)$ :

$h_{X}(x)=-\int _{S}f_{X}(x)log(f_{X}(x))dx$ 。

与夏农熵为类比，计算夏农熵之算式中的 $\log$ 通常以2为底，而微分熵为计算方便，常以 $ln$ 计算后再转换为 $log_{2}$ 的结果。微分熵与夏农熵最大的不同点在于 $f_{X}(x)$ 可为大于1的数值，此时可能会造成 $h_{X}(x)$ 为负值，而夏农熵 $H_{X}(x)$ 恒不为负。

例如， $X$ 为均匀分布 $U(0,a),a<1$ ：

$f_{X}(x)=$ $1 \over a$ $;h_{X}(x)=-\int \limits _{0}^{a}$ $1 \over a$ $ln$ $1 \over a$ $dx$

$h_{X}(x)=ln(a)$ $<0$

性质

相对熵恒正

与夏农相对熵性质相同，恒正。

$-{\displaystyle D(f||g)=\int flog{g \over f}}$

$\leq log\int f{g \over f}$ (延森不等式)

$\leq 0$ 。

链式法则

一次观测所有随机变数所测得的联合熵，与个别接收随机变数后计算的条件熵总和相同，即观测顺序与间隔不影响微分熵。

$h(X_{1},X_{2},...,X_{n})=\sum _{k=1}^{n}h(X_{i}|X_{1},X_{2},...,X_{i-1})$ 。

平移

随机变数的平移不影响微分熵，因为固定的平移不会增加随机变数的方差。

$h(X+c)=h(X)$

缩放

将随机变数缩放会增加其方差，微分熵亦会随之增加。

$h(AX)=h(X)+log|det(A)|$

上界

期望值为0，方差为 $\sigma ^{2}$ 且值域为 $R$ 之随机变数 $X$ 的微分熵，其上界为常态分布 $N(0,\sigma ^{2})$ 的微分熵。

$h(X)\leq {1 \over 2}log(2\pi e\sigma ^{2})$

估计误差

随机变数 $X$ 与其估计子 ${\widehat {X}}$ 之均方误差存在下界，当 $X$ 为常态分布且 ${\widehat {X}}$ 为无偏估计子时，等号成立。

$E[(X-{\widehat {X}})^{2}]\geq {1 \over {2\pi e}}e^{2h(X)}$

渐进等分性

离散随机变数的夏农熵中，独立同分布的随机变数序列，在渐进等分性(Asymptotic equipartition property)之下其几率质量函数 $p(X_{1},X_{2},...,X_{n})$ 趋近于 $2^{-nH(X)}$ 。

连续型随机变数之渐进等分性：

$-{1 \over n}log(f(X_{1},X_{2},...,X_{n}))\rightarrow h(X)$

典型集

典型集(Typical set)定义如下

$A_{\epsilon }^{(n)}=\{(x_{1},x_{2},...,x_{n})\in S^{n}:|-{1 \over n}logf(x_{1},x_{2},...,x_{n})-h(X)|\leq \epsilon }\$ , $\epsilon >0$

体积

集合包含于 $R^{n}$ , $A\subset R^{n}$ ，其体积(Volume) $Vol(A)$ 定义如下:

$Vol(A)=\int \limits _{A}dx_{1}dx_{2}...dx_{n}$ 。

典型集 $A_{\epsilon }^{(n)}$ 的体积有以下性质:

1. $Vol(A_{\epsilon }^{(n)})\leq 2^{n(h(X)+\epsilon )}$

2. $Vol(A_{\epsilon }^{(n)})\geq (1-\epsilon )2^{n(h(X)-\epsilon )}$

证明

1.

由 $-{1 \over n}log(f(X_{1},X_{2},...,X_{n}))\rightarrow h(X)$ ，

可得：

$1=\int _{S^{n}}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n}$

$\geq \int _{A_{\epsilon }^{(n)}}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n}$

$\geq \int _{A_{\epsilon }^{(n)}}2^{-n(h(X)+\epsilon )}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)+\epsilon )}\int _{A_{\epsilon }^{(n)}}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)+\epsilon )}Vol(A_{\epsilon }^{(n)})$

2.

当n足够大时， $Pr(A_{\epsilon }^{(n)})>1-\epsilon$ ，

因此：

$1-\epsilon \leq \int _{A_{\epsilon }^{(n)}}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n}$

$\leq \int _{A_{\epsilon }^{(n)}}2^{-n(h(X)-\epsilon )}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)-\epsilon )}\int _{A_{\epsilon }^{(n)}}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)-\epsilon )}Vol(A_{\epsilon }^{(n)})$

量化

我们可以将几率密度函数量化后，以夏农熵来计算微分熵。首先将连续随机变数X以 $\Delta$ 分为数个区间，根据均值定理， $x_{i}$ 满足：

$f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i}$

量化后的随机变数 $X^{\Delta }$ :

$X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta$

夏农熵为:

$H(X^{\Delta })=-\sum _{-\infty }^{\infty }f(x_{i})\Delta log(f(x_{i}))-log\Delta$

意即，当 $\Delta \rightarrow 0$ ， $h(f)=h(X)$ 。

例子：

1.

对X做n位元量化 $X\sim U(0,{1 \over 8})$ 。

$H(X^{\Delta })=-3+n$

上式表示，若我们想得到n位元精确度，则需要n-3个位元来表示。

2.

对X做n位元量化 $X\sim N(0,{\sigma }^{2})$ 。

$H(X^{\Delta })={1 \over 2}log(2\pi e\sigma ^{2})+n$

上式表示，若我们想得到n位元精确度，需要 ${1 \over 2}log(2\pi e\sigma ^{2})+n$ 个位元来表示。

最大熵

常态分布

随机变数 $X$ ， $X_{N}$ 值域为 $(-\infty ,\infty )$ ，方差为 $\sigma ^{2}$ ， $X$ 为任意分布， $X_{N}$ 为常态分布，几率密度函数分别为 $f(x),g(x)$ 。

则 $h_{X}(X)\leq {1 \over 2}log(2\pi e\sigma ^{2})$

证明:

${\begin{aligned}0&\leq D(f||g)\\&=\int f(x)log({f(x) \over {g(x)}})dx\\&=-h(X)-\int f(x)log(g(x))dx\\&=-h(X)+h(x)\end{aligned}}$

其中，

${\begin{aligned}-\int _{-\infty }^{\infty }f(x)log(g(x))dx&=\int _{-\infty }^{\infty }f(x)({1 \over 2}log(2\pi \sigma ^{2})+{1 \over 2}({{x-\mu } \over \sigma })^{2})dx\\&={1 \over 2}log(2\pi e\sigma ^{2})\end{aligned}}$

指数分布

随机变数 $X$ ， $Y$ 值域为 $(0,\infty )$ ，期望值为 $\lambda$ ， $X$ 为任意分布， $Y$ 为指数分布，几率密度函数分别为 $f(x),g(x)$ 。

则 $h_{X}(X)\leq 1+log\lambda$ 。

证明:

${\begin{aligned}0&\leq D(f||g)\\&=\int f(x)log({f(x) \over {g(x)}})dx\\&=-h(X)-\int f(x)log(g(x))dx\\&=-h(X)+h(Y)\end{aligned}}$

其中，

${\begin{aligned}-\int \limits _{0}^{\infty }f(x)log(g(x))dy&=-\int \limits _{0}^{\infty }f(x)(log\lambda +{x \over \lambda })dx\\&=1+log\lambda \end{aligned}}$

参考文献

Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1

微分熵

目录

定义

相关计算

条件熵

相对熵

互信息

性质

相对熵恒正

链式法则

平移

缩放

上界

估计误差

渐进等分性

渐进等分性

典型集

体积

量化

例子：

最大熵

常态分布

指数分布

参考文献