贝叶斯统计

贝叶斯统计是一种基于贝叶斯概率的统计学理论，以贝叶斯统计的开创人，数学家、长老会牧师托马斯·贝叶斯命名。法国数学家皮埃尔-西蒙·拉普拉斯后来在托马斯·贝叶斯工作的基础上进一步发展了贝叶斯统计，并发明了拉普拉斯平滑等现代贝叶斯统计中常用的方法^[1]。

贝叶斯统计学认为概率是一种基于个人经验、之前的相关实验结果等先验信息而得出的信念度（英语：Credence (statistics)）（degree of belief），没有必要经由反复实验验证。这一点也是贝叶斯学派与频率学派的主要不同之处，因为频率学派认为概率是经反复的实验后频率应达到的极限（大数定理）^[2]^[3]。

贝叶斯统计的核心方法是基于贝叶斯定理，用取得的数据（可记为 $B$ ）对根据个人经验等先验信息对希望研究的命题或假设（可记为 $A$ ）先验概率 $P(A)$ 进行修正，得到后验概率 $P(A|B)$ ^[4]^[5]。

在过去很长一段时间，贝叶斯统计并不受学界的重视。一方面，长期流行的很多统计学方法都是基于频率学派的，因此很长时间内统计学界都是以频率学派占主导地位。频率学派常常批评贝叶斯统计中的先验概率过于主观。另一方面，贝叶斯统计方法往往涉及复杂的计算，这在电子计算机尚不普及的时代是一个很大的问题。不过，随计算机技术的不断发展以及马尔可夫链蒙特卡洛等新算法的出现，21世纪贝叶斯统计已在统计学中占愈发重要的地位^[3]^[6]

贝叶斯公式

假设有两个事件，分别记为 $A$ 与 $B$ 。 $A$ 是人们希望探究的一个命题或假设（例如“丢出一枚硬币之后正面朝上的概率是50%”），而 $B$ 则是有关的实验证据（例如丢出20次硬币后的每次硬币正面朝上还是朝下的结果）^[7]：

$P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}$

该公式中， $P(A)$ 被称为先验概率，是基于经验、先前的实验结果等得出的一个概率。 $P(A\mid B)$ 则是根据证据 $B$ 修正后 $A$ 的概率，称为后验概率。贝叶斯统计学中一般需要求得最大后验概率，即后验概率的众数^[3]。 $P(B\mid A)$ 被称为似然函数，因为基于似然原则（英语：equivalent principle）（equivalent principle） $P(B\mid A)=L(A\mid B)$ ，即条件概率 $P(B\mid A)$ 等于条件B下A的似然。 $P(B)$ 一般被称为“证据”，可由全概率定理算出，求出在所有 $A$ 的不同情况下 $A$ 、 $B$ 的联合概率之和^[3]^[7]：

$P(B)=P(B\mid A_{1})P(A_{1})+P(B\mid A_{2})P(A_{2})+\dots +P(B\mid A_{n})P(A_{n})=\sum _{i}P(B\mid A_{i})P(A_{i})$ 。

$B$ 的概率分布一般是连续的，这往往造成 $P(B)$ 的计算涉及到复杂的积分。不过，使用变分贝叶斯方法或马尔可夫链蒙特卡洛等方法可在不涉及计算 $P(B)$ 的情况下求得所需的最大后验概率，在这种情况下可以只考虑先验概率与似然函数对后验概率的影响（ $\propto$ 符号代表“成正比”）：

$P(A\mid B)\propto P(B\mid A)P(A)$

贝叶斯推断

贝叶斯统计的思想可用于贝叶斯推断中。贝叶斯推断，顾名思义，是指使用贝叶斯统计的思想进行统计推断，即利用样本推断总体情况的过程。贝叶斯推断与频率学派推断的一个最大不同是频率学派认为总体的频率是一定的，只是我们无法准确知道，但在样本量足够大时频率会逐渐收敛于真实的概率值^[8]。因此频率学派推断不会为假设或者模型的参数赋予一个概率。例如频率学派推断中不会有“下次投硬币正面朝上概率为1/2这种说法”，而是会认为，经过不断大量实验，（如果这枚硬币是完美均匀的），那么正面朝上的频率会逐渐趋近于1/2。因此频率学派推断一般是给出统计量以及其置信区间^[9]^:1-3。贝叶斯推断则会先基于经验、先前的研究等先验知识给假设赋予一个先验概率（例如实验者基于经验认为的硬币朝上的概率）或者先验概率分布，再使用实验得到的证据来修正这个先验概率，得到更契合证据的后验概率或后验概率分布。后验概率或后验概率分布即贝叶斯推断的输出^[3]^[10]。

因为贝叶斯推断的这一特点，贝叶斯推断很适合用来做探索性数据分析（英语：exploratory data analysis），意即揭示数据的结构的分析过程^[11] 。

参见

贝叶斯推理

参考文献

^ McGrayne, Sharon. The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy First. Chapman and Hall/CRC. 2012. ISBN 978-0-3001-8822-6.
^ F. Javier Rubio, Professor Karla DiazOrdaz（王超辰译）. 贝叶斯统计入门. [2023-06-15]. （原始内容存档于2022-08-14）.
^ ^3.0 ^3.1 ^3.2 ^3.3 ^3.4 Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. Bayesian Data Analysis Third. Chapman and Hall/CRC. 2013. ISBN 978-1-4398-4095-5.
^ McElreath, Richard. Statistical Rethinking : A Bayesian Course with Examples in R and Stan 2nd. Chapman and Hall/CRC. 2020. ISBN 978-0-367-13991-9.
^ Kruschke, John. Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd. Academic Press. 2014. ISBN 978-0-12-405888-0.
^ Fienberg, Stephen E. When Did Bayesian Inference Become "Bayesian"?. Bayesian Analysis. 2006, 1 (1): 1–40. doi:10.1214/06-BA101  .
^ ^7.0 ^7.1 Grinstead, Charles M.; Snell, J. Laurie. Introduction to probability 2nd. Providence, RI: American Mathematical Society. 2006. ISBN 978-0-8218-9414-9.
^ Lee, Se Yoon. Gibbs sampler and coordinate ascent variational inference: A set-theoretical review. Communications in Statistics - Theory and Methods. 2021, 51 (6): 1549–1568. S2CID 220935477. arXiv:2008.01006  . doi:10.1080/03610926.2021.1921214.
^ Cameron Davidson-Pilon; 辛愿、欧阳婷译. 贝叶斯方法概率编程与贝叶斯推断. 人民邮电出版社. 2016. ISBN 978-7-115-43880-5.
^ Congdon, Peter. Applied Bayesian modelling 2nd. Wiley. 2014. ISBN 978-1119951513.
^ Diaconis, Persi (2011) Theories of Data Analysis: From Magical Thinking Through Classical Statistics. John Wiley & Sons, Ltd 2:e55 doi:10.1002/9781118150702.ch1

[1] McGrayne, Sharon. The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy First. Chapman and Hall/CRC. 2012. ISBN 978-0-3001-8822-6.

[2] F. Javier Rubio, Professor Karla DiazOrdaz（王超辰译）. 贝叶斯统计入门. [2023-06-15]. （原始内容存档于2022-08-14）.

[bda-3] 3.0 ^3.1 ^3.2 ^3.3 ^3.4 Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. Bayesian Data Analysis Third. Chapman and Hall/CRC. 2013. ISBN 978-1-4398-4095-5.

[rethinking-4] McElreath, Richard. Statistical Rethinking : A Bayesian Course with Examples in R and Stan 2nd. Chapman and Hall/CRC. 2020. ISBN 978-0-367-13991-9.

[5] Kruschke, John. Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd. Academic Press. 2014. ISBN 978-0-12-405888-0.

[6] Fienberg, Stephen E. When Did Bayesian Inference Become "Bayesian"?. Bayesian Analysis. 2006, 1 (1): 1–40. doi:10.1214/06-BA101  .

[grinsteadsnell2006-7] 7.0 ^7.1 Grinstead, Charles M.; Snell, J. Laurie. Introduction to probability 2nd. Providence, RI: American Mathematical Society. 2006. ISBN 978-0-8218-9414-9.

[8] Lee, Se Yoon. Gibbs sampler and coordinate ascent variational inference: A set-theoretical review. Communications in Statistics - Theory and Methods. 2021, 51 (6): 1549–1568. S2CID 220935477. arXiv:2008.01006  . doi:10.1080/03610926.2021.1921214.

[9] Cameron Davidson-Pilon; 辛愿、欧阳婷译. 贝叶斯方法概率编程与贝叶斯推断. 人民邮电出版社. 2016. ISBN 978-7-115-43880-5.

[congdon2014-10] Congdon, Peter. Applied Bayesian modelling 2nd. Wiley. 2014. ISBN 978-1119951513.

[11] Diaconis, Persi (2011) Theories of Data Analysis: From Magical Thinking Through Classical Statistics. John Wiley & Sons, Ltd 2:e55 doi:10.1002/9781118150702.ch1

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]