條件熵

在信息論中，條件熵描述了在已知第二個隨機變量 $X$ 的值的前提下，隨機變量 $Y$ 的信息熵還有多少。同其它的信息熵一樣，條件熵也用Sh、nat、Hart等信息單位表示。基於 $X$ 條件的 $Y$ 的信息熵，用 $\mathrm {H} (Y|X)$ 表示。

定義

如果 $\mathrm {H} (Y|X=x)$ 爲變數 $Y$ 在變數 $X$ 取特定值 $x$ 條件下的熵，那麼 $\mathrm {H} (Y|X)$ 就是 $\mathrm {H} (Y|X=x)$ 在 $X$ 取遍所有可能的 $x$ 後取平均的結果。

給定隨機變量 $X$ 與 $Y$ ，定義域分別爲 ${\mathcal {X}}$ 與 ${\mathcal {Y}}$ ，在給定 $X$ 條件下 $Y$ 的條件熵定義爲：^[1]

{\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}

注意： 可以理解，對於確定的 c>0，表達式 0 log 0 和 0 log (c/0) 應被認作等於零。

當且僅當 $Y$ 的值完全由 $X$ 確定時， $\mathrm {H} (Y|X)=0$ 。相反，當且僅當 $Y$ 和 $X$ 爲獨立隨機變數時 $\mathrm {H} (Y|X)=\mathrm {H} (Y)$ 。

鏈式法則

假設兩個隨機變數 X 和 Y 確定的組合系統的聯合熵爲 $\mathrm {H} (X,Y)$ ，即我們需要 $\mathrm {H} (X,Y)$ bit的信息來描述它的確切狀態。現在，若我們先學習 $X$ 的值，我們得到了 $\mathrm {H} (X)$ bits的信息。一旦知道了 $X$ ，我們只需 $\mathrm {H} (X,Y)-\mathrm {H} (X)$ bits來描述整個系統的狀態。這個量正是 $\mathrm {H} (Y|X)$ ，它給出了條件熵的鏈式法則：