如果 爲變數 在變數 取特定值 條件下的熵,那麼 就是 在 取遍所有可能的 後取平均的結果。
给定随机变量 与 ,定義域分別爲 與 ,在給定 條件下 的條件熵定義爲:[1]
-
注意: 可以理解,對於確定的 c>0,表達式 0 log 0 和 0 log (c/0) 應被認作等於零。
當且僅當 的值完全由 確定時, 。相反,當且僅當 和 爲獨立隨機變數時 。
假設兩個隨機變數 X 和 Y 確定的組合系統的聯合熵爲 ,即我們需要 bit的信息來描述它的確切狀態。
現在,若我們先學習 的值,我們得到了 bits的信息。
一旦知道了 ,我們只需 bits來描述整個系統的狀態。
這個量正是 ,它給出了條件熵的链式法则:
-
链式法则接著上面條件熵的定義:
-
條件熵的貝葉斯規則表述爲
-
證明. and 。對稱性意味著 。將兩式相減即爲貝葉斯規則。