如果 为变量 在变量 取特定值 条件下的熵,那么 就是 在 取遍所有可能的 后取平均的结果。
给定随机变量 与 ,定义域分别为 与 ,在给定 条件下 的条件熵定义为:[1]
-
注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。
当且仅当 的值完全由 确定时, 。相反,当且仅当 和 为独立随机变量时 。
假设两个随机变量 X 和 Y 确定的组合系统的联合熵为 ,即我们需要 bit的资讯来描述它的确切状态。
现在,若我们先学习 的值,我们得到了 bits的资讯。
一旦知道了 ,我们只需 bits来描述整个系统的状态。
这个量正是 ,它给出了条件熵的链式法则:
-
链式法则接着上面条件熵的定义:
-
条件熵的贝叶斯规则表述为
-
证明. and 。对称性意味着 。将两式相减即为贝叶斯规则。