概率分布

“Probability distribution”的各地常用名称
“Probability distribution”的各地常用名称
中国大陆	概率分布
台湾	机率分布、机率分配
港澳	概率分布
日本、韩国汉字	确率分布

概率分布（英语：probability distribution）简称分布，亦称概率分配或分配，是概率论中的一个概念。

使用时可以有以下两种含义：

广义地，它指称：随机变量的概率性质——当我们说概率空间 $(\Omega ,{\mathcal {F}},\mathbb {P} )$ 中的两个随机变量X和Y具有同样的分布时，我们是无法用概率 $\mathbb {P}$ 来区别他们的。换言之：

称X和Y为同分布的随机变量，当且仅当对任意事件 $A\in {\mathcal {F}}$ ，有 $\mathbb {P} (X\in A)=\mathbb {P} (Y\in A)$ 成立。

但是，不能认为同分布的随机变量是相同的随机变量。事实上即使X与Y同分布，也可以没有任何点ω使得X(ω)=Y(ω)。在这个意义下，可以把随机变量分类，每一类称作一个分布，其中的所有随机变量都同分布。用更简要的语言来说，同分布是一种等价关系，每一个等价类就是一个分布。需注意的是，通常谈到的离散分布、均匀分布、伯努利分布、正态分布、泊松分布等，都是指各种类型的分布，而不能视作一个分布。

狭义地，它是指：随机变量的概率分布函数。设X是样本空间 $(\Omega ,{\mathcal {F}})$ 上的随机变量， $\mathbb {P}$ 为概率测度，则称如下定义的函数是X的分布函数，或称累积分布函数：

$F_{X}(a)=\mathbb {P} (X\leq a)$ ，对任意实数 $a$ 定义。

具有相同分布函数的随机变量一定是同分布的，因此可以用分布函数来描述一个分布，但更常用的描述手段是概率密度函数。^{[注 1]}

分布函数的性质刻划

对于特定的随机变量 $X$ ，其分布函数 $F_{X}$ 是单调不减及右连续，而且 $F_{X}(-\infty )=0$ ， $F_{X}(\infty )=1$ 。这些性质反过来也描述了所有可能成为分布函数的函数：

设 $F:[-\infty ,\infty ]\to [0,1],F(-\infty )=0,F(\infty )=1$ 且单调不减、右连续，则存在概率空间 $(\Omega ,{\mathcal {F}},\mathbb {P} )$ 及其上的随机变量 X ，使得 F 是 X 的分布函数，即 $F_{X}=F$

随机变量的分布

设 $P$ 为概率测度， $X$ 为随机变量，则函数 $F(x)=P(X\leq x),(x\in \mathbb {R} )$ 称为 $X$ 的概率分布函数。如果将 $X$ 看成是数轴上的随机点的坐标，那么，分布函数 $F(x)$ 在 $x$ 处的函数值就表示 $X$ 落在区间 $(-\infty ,x]$ 上的概率。

例如，设随机变量 $X$ 为掷两次骰子所得的点数差，而整个样本空间由 36 个元素组成。

数量	( i , j )∈ S	$x$	$P(X=x)$	$F(x)$
6	( 1,1 )，( 2,2 )，( 3,3 ) ( 4,4 )，( 5,5 )，( 6,6 )	0	6/36	6/36
10	( 1,2 )，( 2,3 ) ( 3,4 )，( 4,5 )，( 5,6 ) ( 2,1 )，( 3,2 )，( 4,3 ) ( 5,4 )，( 6,5 )	1	10/36	16/36
8	( 1,3 )，( 2,4 )，( 3,5 ) ( 4,6 )，( 3,1 )，( 4,2 ) ( 5,3 )，( 6,4 )	2	8/36	24/36
6	( 1,4 )，( 2,5 )，( 3,6 ) ( 4,1 )，( 5,2 )，( 6,3 )	3	6/36	30/36
4	( 1,5 )，( 2,6 ) ( 5,1 )，( 6,2 )	4	4/36	34/36
2	( 1,6 )，( 6,1 )	5	2/36	36/36

其分布函数是：

F(x)={\begin{cases}0,x<0\\6/36,x<1\\16/36,x<2\\24/36,x<3\\30/36,x<4\\34/36,x<5\\1,x\geq 5\end{cases}}

离散概率分布族

上面所列举的例子属于离散分布，即分布函数的值域是离散的，比如只取整数值的随机变量就是属于离散分布的。 $F(x)$ 表示随机变量 $X\leq x$ 的概率值。如果X的取值只有 $x_{1}<x_{2}<...<x_{n}$ ，则：

$F_{X}(x_{i})=\sum _{j=1}^{i}P(x_{j})$
$\sum _{k=1}^{n}P(x_{k})=1$

其他常见的离散概率分布族有：

伯努利分布

二项式分布

二项分布是最重要的离散概率分布之一，由瑞士数学家雅各布·伯努利所发展，一般用二项分布来计算概率的前提是，每次抽出样品后再放回去，并且只能有两种试验结果，比如黑球或红球，正品或次品等。二项分布指出，随机一次试验出现的概率如果为 $p$ ，那么在 $n$ 次试验中出现 $k$ 次的概率为：

f(n,k,p)={n \choose k}p^{k}(1-p)^{n-k}

例如，在掷3次骰子中，不出现6点的概率是： $f(3,0,{\frac {1}{6}})={3 \choose 0}\left({\frac {1}{6}}\right)^{0}\left({\frac {5}{6}}\right)^{3}=0.579$
在连续两次的轮盘游戏中，至少出现一次红色的概率为： $f(2,1,{\frac {18}{37}})+f(2,2,{\frac {18}{37}})=0.736$

二项分布在

p=0.5

时的对称性 ( 自变量为

k

)

二项分布在 $p=0.5$ 时表现出图像的对称性，而在 $p$ 取其它值时是非对称的。另外二项分布的期望 $\operatorname {E} (X)=np$ ，以及方差 $\operatorname {var} (X)=n\,p\,(1-p)\!$

几何分布

负二项式分布

超几何分布

作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有 $N$ 个球，其中 $M$ 个黑球， $(N-M)$ 个红球，通过下面的超几何分布公式可以计算出，从容器中抽出的 $n$ 个球中（抽出的球不放回去）有 $k$ 个黑球的概率是多少：

f(k,n;M;N):={\frac {\displaystyle {M \choose k}{N-M \choose n-k}}{\displaystyle {N \choose n}}}

例如，容器中一共10个球，其中6个黑色，4个白色，一共抽5次（抽出的球不放回去），在这5个球中有3个黑球的概率是： $f(k=3)={\frac {\displaystyle {6 \choose 3}{10-6 \choose 5-3}}{\displaystyle {10 \choose 5}}}=0.476$

超几何分布与二项式分布的关系

与二项式分布不同的是，在超几何分布中，特别强调的是抽出的样品在下一次抽取前不再放回去，但是如果抽取的次数 $n$ 和总共样品数 $N$ 相比很小（大约 $n/N<0.05$ ），这时在计算上二项分布和超几何分布相互间则没有主要的区别，此时人们更愿意采用二项分布的方法，因为在数学计算上二项分布要简单一些。

Poisson分布

Poisson近似是二项分布的一种极限形式。其强调如下的试验前提：一次抽样的概率值 $p$ 相对很小，而抽取次数 $n$ 值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出，如果随机一次试验出现的概率为 $p$ ，那么在 $n$ 次试验中出现 $k$ 次的概率按照泊松分布应该为：

f(n,k,p)={\frac {(n\cdot p)^{k}}{e^{n\cdot p}\cdot k!}}

其中，数学常数 $e=2.71828...$ (自然对数的底数)
例如，某工厂在生产零件时，每200个成品中会有1个次品，那么在100个零件中最多出现2个次品的概率按照泊松分布应该是： $f(100,0,{\frac {1}{200}})+f(100,1,{\frac {1}{200}})+f(100,2,{\frac {1}{200}})=0.986$

在实践中如果遇到 $n$ 值很大导致二项分布难于计算时，可以考虑使用泊松分布，但前提是 $n\cdot p$ 必须趋于一个有限极限^{[来源请求]}。采用泊松分布的一个不太严格的规则（通过展开二项分布，并在形式上化简为类似泊松分布后，利用极限化简即可得）^{[来源请求]}是：

$n\geq 100$
$p\leq 0.1$

离散均匀分布

连续概率分布族

设 $X$ 是具有分布函数 $F$ 的连续随机变量，且F的一阶导数处处存在，则其导函数

f(x)={\frac {\operatorname {d} F(x)}{\operatorname {d} x}}

称为 $X$ 的概率密度函数。
每个概率密度函数都有如下性质：

$\int _{-\infty }^{\infty }f(x)\,{\rm {d}}x=1$
$\int _{a}^{b}f(x)\,{\rm {d}}x=\operatorname {P} (a\leq X\leq b)=F(b)-F(a)$

第一个性质表明，概率密度函数与 $x$ 轴形成的区域的面积等于1，第二个性质表明，连续随机变量在区间 $[a,b]$ 的概率值等于密度函数在区间 $[a,b]$ 上的积分，也即是与 $X$ 轴在 $[a,b]$ 内形成的区域的面积。因为 $0\leq F(x)\leq 1$ ，且 $f(x)$ 是 $F(x)$ 的导数，因此按照积分原理不难推出上面两个公式。

常态分布、指数分布、 $t$ -分布， $F$ -分布以及 $\chi ^{2}$ -分布都是连续分布。

常见的连续概率分布族有：

均匀分布

常态分布

连续随机变量的概率密度函数如果是如下形式，

f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}

那么这个连续分布被称之为常态分布，或者高斯分布。其密度函数的曲线呈对称钟形，因此又被称之为钟形曲线，其中 $\mu$ 是平均值， $\sigma$ 是标准差。常态分布是一种理想分布，许多典型的分布，比如成年人的身高，汽车轮胎的运转状态，人类的智商值（IQ），都属于或者说至少接近常态分布。同样按照连续分布的定义，正态概率密度函数具有和普通概率密度函数类似的性质：

$\int _{-\infty }^{\infty }f(t)\,{\rm {d}}t=1$
$F(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}e^{\left(-{\frac {1}{2}}\left({\frac {t-\mu }{\sigma }}\right)^{2}\right)}\,{\rm {d}}t$

如果给出一个常态分布的平均值 $\mu$ 以及标准差 $\sigma$ ，可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的，没有计算机的辅助基本是不可能的，解决这一问题的方法是借助 $z$ -变换以及标准常态分布表格（ $z$ -表格）。

中间值 $\mu =0$ 以及标准差 $\sigma =1$ 的常态分布被称之为标准常态分布，其累积分布函数是

\Phi (z)={\frac {1}{\sqrt {2\pi }}}\cdot \int _{-\infty }^{z}e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t

将普通形式的常态分布变换到标准常态分布的方法是

z={\frac {x-\mu }{\sigma }}

例如，已知 $X$ 服从常态分布，且 $\mu =5$ ， $\sigma =3$ ，求区间概率值 $P(4<X\leq 7)$ 。计算过程如下：

设另一随机变量 $Z={\frac {X-5}{3}}$ ，则 $Z$ 服从标准正态分布，且

{\begin{aligned}&\qquad \quad 4<X\leq 7\\&\iff {\frac {4-5}{3}}<Z\leq {\frac {7-5}{3}}\\&\iff -1/3<Z\leq 2/3,\end{aligned}}

所以

P(4<X\leq 7)=P(-1/3<Z\leq 2/3)=\Phi (2/3)-\Phi (-1/3)\approx 0.7475-0.3694=0.3781,

其中 $\Phi (z)$ 值通过查 $z$ -表格获得。

常态分布与二项分布的关系

在离散分布中如果试验次数 $n$ 值非常大，而且单次试验的概率 $p$ 值又不是很小的情况下，常态分布可以用来近似的代替二项分布。一个粗略的使用常态分布的近似规则是： $n\cdot p\cdot (1-p)\geq 9$ 。
从二项分布中获得 $\mu$ 和 $\sigma$ 值的方法是

期望 $\mu =n\cdot p$
标准差 $\sigma ={\sqrt {n\cdot p\cdot (1-p)}}$

如果 $\sigma >3$ ，则必须采用下面的近似修正方法：

P(x_{1}\leq X\leq x_{2})=\underbrace {\sum _{k=x_{1}}^{x_{2}}{n \choose k}\cdot p^{k}\cdot (q)^{n-k}} _{\mathrm {EF} }\approx \underbrace {\Phi \left({\frac {x_{2}+0.5-\mu }{\sigma }}\right)-\Phi \left({\frac {x_{1}-0.5-\mu }{\sigma }}\right)} _{\mathrm {ZF} }

（注： $q=1-p$ ；EF：二项分布；ZF：常态分布）

上（下）临界值分别增加（减少）修正值0.5的目的是在 $\sigma$ 值很大时获得更精确的近似值，只有 $\sigma$ 很小时，修正值0.5可以不被考虑。

例如，随机试验为连续64次掷硬币，获得的国徽数位于32和42之间的概率是多少？用常态分布计算如下，

\mu =n\cdot p=64\cdot 0.5=32

\sigma ={\sqrt {n\cdot p\cdot (1-p)}}={\sqrt {64\cdot 0.5\cdot 0.5}}=4

$n\cdot p\cdot q=16\geq 9$ ，符合近似规则，应用 $z$ -变换：

P(32\leq X\leq 42)\approx \Phi \left({\frac {42+0.5-32}{4}}\right)-\Phi \left({\frac {32-0.5-32}{4}}\right)

=\Phi \left(2.63\right)-\Phi \left(-0.13\right)=0.0517+0.4957=0.5474

标准常态分布

N(0,1)

下的

z

-表格

在运用 $z$ -表格时注意到利用密度函数的对称性来求出 $z$ 为负值时的区域面积。

伽玛分布

指数分布

其他连续型常用分布

贝它分布

双指数分布

对数正态分布

帕雷托分布

柯西分布

多元正态分布

参考文献

彼得·缺菲尔（Peter Zoefel）：《统计和经济学家》（德文）. PEASON Studium出版社，2003年. ISBN 3-8273-7062-0.
约瑟夫·西拉（Josef Schira）：《统计理论与企业管理》（德文）. PEASON Studium出版社，2003年. ISBN 3-8273-7041-8.
汉斯-底特·黑伯曼（Hans-Dieter Hippmann）：《统计学》（德文）. SCHAEFFER POESCHEL出版社，2003年. ISBN 3-7910-2119-2.

参见

注释

^ 在常用的文献中，“分布”一词可指其广义和狭义，而“累计分布函数”或“分布函数”一词只能指称后者。为了不致混淆，下文中谈及上述的广义时使用“分布”一词；狭义时使用“分布函数”一词。

外部链接

概率分布Java演示

[1] 在常用的文献中，“分布”一词可指其广义和狭义，而“累计分布函数”或“分布函数”一词只能指称后者。为了不致混淆，下文中谈及上述的广义时使用“分布”一词；狭义时使用“分布函数”一词。

[注 1]