泊松分布
根据可汗学院统计学整理。
假如一个交通工程师想知道任意时刻通过街上某一点的车辆数,如在某一小时内街上某点通过100辆汽车的概率。可以定义一个变量\(X\)表示一小时内通过的车辆数,然后求出该变量的概率分布。
这里需要做如下两个假设:
- 街上此点任意时刻的情况没有差异(即在每个时间段内在车流量方面没有差异,显然有些不真实,高峰时段的车流量大于其它时段);
- 一段时间内的车流量对另一段时间没有影响,相互独立。
首先可以估计\(X\)的均值,即在路边观察几个小时内通过的车辆数,之后再取平均,可能就会获得一个不错的总体均值的估计值,这里假设期望值的最好估计值为\(\lambda\),即\(E(X) = \lambda\)。
二项分布均值的估计值为\(n \times p\),\(n\)表示实验次数,\(p\)表示每次实验成功的概率。我们也可以对1小时内通过的车辆数进行类似的建模:将1小时划分为60分钟,即进行60次实验,每次实验成功表示这一分钟内有车通过,成功概率显然为\(\frac{\lambda}{60}\),即有 \[\lambda(cars/hour) = 60(mins/hour) \times \frac{\lambda}{60}(cars/min)\] 那么一小时内通过\(k\)辆车的概率为 \[P(X=k) = \binom{60}{k} (\frac{\lambda}{60})^k (1 - \frac{\lambda}{60})^{60 - k}\]
这时会出现一个问题:如果一分钟之内不止一辆车通过怎么办?
解决方法:分更多的区间,例如将时间段从1分钟改为1秒钟。
一小时内通过\(k\)辆车的概率为 \[P(X=k) = \binom{3600}{k} (\frac{\lambda}{3600})^k (1 - \frac{\lambda}{3600})^{3600 - k}\]
如果1秒钟没有不止一辆车通过怎么办?继续缩小时间段,一直缩小下去就能得到泊松分布。
预备知识: \[\begin{equation} \lim_{x \to \infty} (1 + \frac{a}{x})^x = e^a \nonumber \\ \lim_{x \to a} f(x) g(x) = \lim_{x \to a} f(x) \times \lim_{x \to a} g(x) \nonumber \end{equation}\]
推导:
\[\begin{align}
P(X = k) &= \lim_{n \to \infty} \binom{n}{k} (\frac{\lambda}{n})^k (1 - \frac{\lambda}{n})^{n-k} \nonumber \\
&= \lim_{n \to \infty} \frac{n!}{(n-k)! k!} \frac{\lambda^k}{n^k}(1 - \frac{\lambda}{n})^n (1 - \frac{\lambda}{n})^{-k} \nonumber \\
&= \lim_{n \to \infty} \frac{n(n-1)(n-2) \cdots (n-k+1)}{n^k} \frac{\lambda^k}{k!} (1 - \frac{\lambda}{n})^n (1 - \frac{\lambda}{n})^{-k} \nonumber \\
&= \lim_{x \to \infty} \frac{n^k + \cdots}{n^k}·\frac{\lambda^k}{k!} · \lim_{x \to \infty} (1 - \frac{\lambda}{n})^n (1 - \frac{\lambda}{n})^{-k} \nonumber \\
&= 1 · \frac{\lambda^k}{k!} · e^{- \lambda} · 1 \nonumber \\
&= \frac{\lambda^k}{k!} e^{- \lambda} \nonumber
\end{align}\]
泊松分布的概率函数为: \[P(X = k) = \frac{\lambda^k}{k!} e^{- \lambda}, k=0,1,\cdots\] 泊松分布的参数\(\lambda\)是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合描述单位时间内随机事件发生次数的概率。
泊松分布的期望和方差均为\(\lambda\)。