在变分贝叶斯方法中,证据下界(英语:evidence lower bound,ELBO;有时也称为变分下界[1]或负变分自由能)是一种用于估计一些观测数据的对数似然的下限。
假设我们有一个可观察的随机变量 ,并且我们想找到其真实分布 。这将允许我们通过抽样生成数据,并估计未来事件的概率。一般来说,精确找到 是不可能的,因此我们不得不寻找一个近似。
也就是说,我们定义一个足够大的参数化分布族 ,然后最小化某种损失函数 , 。解决这个问题的一种可能方法是考虑从 到 的微小变化,并解决 。这是变分法中的一个变分问题,因此被称为变分方法。
由于明确参数化的分布族并不多(所有经典的分布族,如正态分布、Gumbel分布等都太过简单,无法很好地模拟真实分布),我们考虑隐式参数化的概率分布:
- 首先,定义一个在潜在随机变量 上的简单分布 。通常情况下,正态分布或均匀分布已足够。
- 接下来,定义一个由 参数化的复杂函数族 (例如深度神经网络)。
- 最后,定义一种将任何 转换为可观测随机变量 的简单分布的方法。例如,让 具有两个输出,那么我们可以将相应的分布定义为在 上的正态分布 。
这定义了一个关于 的联合分布族 。从 中抽取样本 变得非常容易:只需从 中抽样 ,然后计算 ,最后使用 来抽样 。
换句话说,我们拥有了一个可观测量和潜在随机变量的生成模型。
现在,我们认为一个分布 是好的,如果它是 的一个接近近似: 由于右侧的分布仅涉及到 ,因此左侧的分布必须消除潜在变量 的影响,即要对 进行边缘化。
一般情况下,我们无法积分 ,这迫使我们寻找另一个近似。
由于 ,因此我们只需要找到一个 的好的近似即可。因此,我们定义另一个分布族 来近似 ,这是一个针对潜在变量的判别模型。
下表概述了所有情况:
:观测量
|
|
:潜变量
|
可近似的
|
|
,简单
|
|
,简单
|
|
可近似的
|
|
,简单
|
用贝叶斯的方式来说, 是观测到的证据, 是潜在/未观测到的随机变量。分布 在 上是 的先验分布, 是似然函数,而 是 的后验分布。
给定一个观测值 ,我们可以通过计算 来推断出可能导致 出现的 。通常的贝叶斯方法是估计积分:
然后通过贝叶斯定理计算:
这通常是非常耗时的,但如果我们可以找到一个在大多数 下的好近似 ,那么我们就可以快速地从 推断出 。因此,寻找一个好的 也称为摊销推断。
综上所述,我们找到了一个变分贝叶斯推断问题。
变分推断中的一个基本结果是,最小化Kullback–Leibler 散度(KL散度)等价于最大化对数似然: 其中 是真实分布的熵。因此,如果我们可以最大化
我们就可以最小化
因此找到一个准确的近似 。要最大化 我们只需从真实分布中抽取许多样本 ,然后使用: 为了最大化 ,必须要找到 :[注 1] 这通常没有解析解,必须进行估计。估计积分的常用方法是使用重要性采样进行蒙特卡洛积分: 其中, 是我们用于进行蒙特卡罗积分的在 上的抽样分布。因此,我们可以看到,如果我们抽样 ,那么 是 的一个无偏估计量。不幸的是,这并不能给我们一个对 的无偏估计量,因为 是非线性的。事实上,由于琴生(Jensen)不等式,我们有: 事实上,所有明显的 的估计量都是向下偏的,因为无论我们取多少个 的样本,我们都可以由琴生不等式得到: 减去右边,我们可以看出问题归结为零的有偏估计问题: 通过delta 方法,我们有 如果我们继续推导,我们将得到加权自编码器。[2]但是让我们先回到最简单的情况,即 : 不等式的紧度有一个解析解: 这样我们就得到了ELBO函数:
对于固定的 ,优化 的同时试图最大化 和最小化 。如果 和 的参数化足够灵活,我们会得到一些 ,使得我们同时得到了以下近似: 由于 我们有 所以 也就是说: 最大化ELBO将同时使我们得到一个准确的生成模型 和一个准确的判别模型 。
ELBO具有许多可能的表达式,每个表达式都有不同的强调。 这个形式表明,如果我们抽样 , 则 是 ELBO 的无偏估计量。 这种形式显示 ELBO 是证据 的下界 ,并且关于 最大化 ELBO 等价于最小化从 到 KL 散度 . 这种形式显示,最大化ELBO同时试图将 保持接近 ,并将 集中在最大化 的那些 上。也就是说,近似后验 在保持先验 的同时,朝着最大似然 移动。 这个形式显示,最大化ELBO同时试图保持 的熵高,并将 集中于最大化 的那些 。也就是说,近似后验 在均匀分布和向最大后验 之间保持平衡。
假设我们从 中取 个独立样本,并将它们收集在数据集 中,则我们具有经验分布 。其中 表示冲激函数(Dirac函数)。
从 拟合 通常可以通过最大化对数似然 来完成: 现在,根据 ELBO 不等式,我们可以约束 , 因此 右侧简化为 KL 散度,因此我们得到: 这个结果可以解释为数据处理不等式的一个特例。
在这个解释下,最大化 等价于最小化 ,其中上式是真实的需要估计的量 的上界,通过数据处理不等式获得。也就是说,我们通过将潜在空间与观测空间连接起来,为了更高效地最小化KL散度而付出了较弱的不等式代价。[3]