如果 为变数 在变数 取特定值 条件下的熵,那么 就是 在 取遍所有可能的 后取平均的结果。
给定随机变量 与 ,定义域分别为 与 ,在给定 条件下 的条件熵定义为:[1]
-
注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。
当且仅当 的值完全由 确定时, 。相反,当且仅当 和 为独立随机变数时 。
假设两个随机变数 X 和 Y 确定的组合系统的联合熵为 ,即我们需要 bit的信息来描述它的确切状态。
现在,若我们先学习 的值,我们得到了 bits的信息。
一旦知道了 ,我们只需 bits来描述整个系统的状态。
这个量正是 ,它给出了条件熵的链式法则:
-
链式法则接著上面条件熵的定义:
-
条件熵的贝叶斯规则表述为
-
证明. and 。对称性意味著 。将两式相减即为贝叶斯规则。