泊松分布

泊松分布

根据可汗学院统计学整理。

假如一个交通工程师想知道任意时刻通过街上某一点的车辆数,如在某一小时内街上某点通过100辆汽车的概率。可以定义一个变量\(X\)表示一小时内通过的车辆数,然后求出该变量的概率分布。

这里需要做如下两个假设:

  • 街上此点任意时刻的情况没有差异(即在每个时间段内在车流量方面没有差异,显然有些不真实,高峰时段的车流量大于其它时段);
  • 一段时间内的车流量对另一段时间没有影响,相互独立。

首先可以估计\(X\)的均值,即在路边观察几个小时内通过的车辆数,之后再取平均,可能就会获得一个不错的总体均值的估计值,这里假设期望值的最好估计值为\(\lambda\),即\(E(X) = \lambda\)

二项分布均值的估计值为\(n \times p\)\(n\)表示实验次数,\(p\)表示每次实验成功的概率。我们也可以对1小时内通过的车辆数进行类似的建模:将1小时划分为60分钟,即进行60次实验,每次实验成功表示这一分钟内有车通过,成功概率显然为\(\frac{\lambda}{60}\),即有 \[\lambda(cars/hour) = 60(mins/hour) \times \frac{\lambda}{60}(cars/min)\] 那么一小时内通过\(k\)辆车的概率为 \[P(X=k) = \binom{60}{k} (\frac{\lambda}{60})^k (1 - \frac{\lambda}{60})^{60 - k}\]

这时会出现一个问题:如果一分钟之内不止一辆车通过怎么办?
解决方法:分更多的区间,例如将时间段从1分钟改为1秒钟。
一小时内通过\(k\)辆车的概率为 \[P(X=k) = \binom{3600}{k} (\frac{\lambda}{3600})^k (1 - \frac{\lambda}{3600})^{3600 - k}\]

如果1秒钟没有不止一辆车通过怎么办?继续缩小时间段,一直缩小下去就能得到泊松分布。

预备知识\[\begin{equation} \lim_{x \to \infty} (1 + \frac{a}{x})^x = e^a \nonumber \\ \lim_{x \to a} f(x) g(x) = \lim_{x \to a} f(x) \times \lim_{x \to a} g(x) \nonumber \end{equation}\]

推导
\[\begin{align} P(X = k) &= \lim_{n \to \infty} \binom{n}{k} (\frac{\lambda}{n})^k (1 - \frac{\lambda}{n})^{n-k} \nonumber \\ &= \lim_{n \to \infty} \frac{n!}{(n-k)! k!} \frac{\lambda^k}{n^k}(1 - \frac{\lambda}{n})^n (1 - \frac{\lambda}{n})^{-k} \nonumber \\ &= \lim_{n \to \infty} \frac{n(n-1)(n-2) \cdots (n-k+1)}{n^k} \frac{\lambda^k}{k!} (1 - \frac{\lambda}{n})^n (1 - \frac{\lambda}{n})^{-k} \nonumber \\ &= \lim_{x \to \infty} \frac{n^k + \cdots}{n^k}·\frac{\lambda^k}{k!} · \lim_{x \to \infty} (1 - \frac{\lambda}{n})^n (1 - \frac{\lambda}{n})^{-k} \nonumber \\ &= 1 · \frac{\lambda^k}{k!} · e^{- \lambda} · 1 \nonumber \\ &= \frac{\lambda^k}{k!} e^{- \lambda} \nonumber \end{align}\]

泊松分布的概率函数为: \[P(X = k) = \frac{\lambda^k}{k!} e^{- \lambda}, k=0,1,\cdots\] 泊松分布的参数\(\lambda\)是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合描述单位时间内随机事件发生次数的概率
泊松分布的期望和方差均为\(\lambda\)