泊松分布的仿真与应用
Author:zhoulujun Date:
本文基于:泊松分布的仿真与应用 https://www.luochang.ink/posts/poisson/
概率分布
什么是概率分布?
数据在统计图中的形状,叫做它的分布。
概率分布:就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。
常见的4种概率分布
当你遇到一个事情,
二项分布:如果该事情发生次数固定,而你感兴趣的是成功的次数,比如:重复事情做x次,会成功几次?
几何分布:如果你需要知道尝试多次能取得第一次成功的概率。比如:进行x次尝试这个事情,取得第1次成功的概率是多大。
泊松分布:如果你想知道某个时间范围内,发生某件事情x次的概率是多大。比如一天内中奖的次数,一个月内某机器损坏的次数等。
正态分布:正态分布是一个无限支持的连续单元概率分布。
Poisson distribution(泊松分布)
泊松分布 表示在给定时间段内发生给定数量的事件的概率。
这个定义比较抽象。举个具体的例子,假设你每小时接到电话的概率是固定的,比如每小时 0.05 个,那么你在接下来 1 小时内接到电话个数的概率,就服从泊松分布:
1 小时内接到 0 个电话,对应一个概率值 P0;
1 小时内接到 1 个电话,对应一个概率值 P1;
… …
1 小时内接到 n 个电话,也对应一个概率值Pn。
这些概率值组成一个概率分布列,它们的值 (n,Pn)(n,Pn) 在二维坐标下连成一条曲线。这条曲线所在的函数就是泊松分布的概率密度函数。
P(k|t,λ)=((λt)k/k!)exp(−λt) = =
从公式中,我们可以看出:只要确定了 λ 和 t,该式就退化成了概率 P 关于事件发生次数 k 的函数。 类似地,如果我们确定了 λ 和 k,则该式退化成概率P 关于时间范围 t 的函数。
“确定哪些参数,让函数最终退化成哪些参数的函数”,这个选择和我们的研究目的有关。如果你对不同 k 如何影响 P 值感兴趣,那么就应该确定参数 λ 和 t。如果对 t 和 P 之间的关系感兴趣,那么就应该确定参数 λ 和 k。
λ, k, t 的定义:
λ: 单位时间内,事件发生的频率——λ 则类似该事件的一个固有属性,λ 越大,可以简单理解为该事件在一段时间内发生的概率越大。
k: 事件发生次数——k 指代的是某事件发生多少次。
t: 观测事件发生次数的时间范围—— t 指代的是多长时间。
泊松分布衡量的是多长时间内,某事件发生多少次的概率。泊松分布的本质还是二项分布,泊松分布只是用来简化二项分布计算的。
泊松分布是二项分布n很大而p很小时的一种极限形式
二项分布是:已知某件事情发生的概率是p,那么做n次试验,事情发生的次数就服从于二项分布。
泊松分布是:指某段连续的时间内某件事情发生的次数,而且“某件事情”发生所用的时间是可以忽略的。
例如,在五分钟内,电子元件遭受脉冲的次数,就服从于泊松分布。
假如你把“连续的时间”分割成无数小份,那么每个小份之间都是相互独立的。在每个很小的时间区间内,电子元件都有可能“遭受到脉冲”或者“没有遭受到脉冲”,这就可以被认为是一个p很小的二项分布。而因为“连续的时间”被分割成无穷多份,因此n(试验次数)很大。所以,泊松分布可以认为是二项分布的一种极限形式。因为二项分布其实就是一个最最简单的“发生”与“不发生”的分布,它可以描述非常多的随机的自然界现象,因此其极限形式泊松分布自然也是非常有用的。
Poisson还有一个知名度比较小的第二个定义,或者说是Poisson Process的定义:假定一个事件在一段时间内随机发生,且符合以下条件:
将该时间段无限分隔成若干个小的时间段,在这个接近于零的小时间段里,该事件发生一次的概率与这个极小时间段的长度成正比。
在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。
该事件在不同的小时间段里,发生与否相互独立。
泊松分布特点
事件是独立事件:对于独立事件,本次结果与之前无关。赌徒谬论:独立事件和关键事件概率计算不同,类似抽奖这样的就是独立事件
在任意相同的时间范围内,事件发的概率相同:例如1天内中奖概率,与第2天内中间概率相同
某个时间范围内,发生某件事情x次的概率是多大:例如你搞了个促销抽奖活动,想知道一天内10人中奖的概率
符合以上3个特点就是泊松分布。
在统计学上,只要某类事件满足三个条件——小概率事件、独立、稳定,它就服从"泊松分布"。
如果美国大规模枪击满足泊松分布:
(1)枪击案是小概率事件。
(2)枪击案是独立的,不会互相影响。
(3)枪击案的发生概率是稳定的。
第三个条件是关键。成立,就表示美国的治安没有恶化;一旦不成立,则说明枪击案的发生概率不稳定,正在提高,美国治安恶化。
泊松分布的本质
尽管泊松分布的函数形式看起来很复杂,但它本质上其实很简单。泊松函数的本质,也就是它的基本假设,可以追溯到一个简单的公式:
P=λΔt
这个公式看起来太过简单,以至于你可能不相信它能推导出上文那个复杂的泊松分布函数。如果你想了解推导过程,可以看我之前写的博客 排队论在网络性能分析中的应用,里面有详细证明。本文的主题不在与于,就不展开讲了。
推导泊松分布
假设我们有一颗栗子树,有时候因为风或者是小动物活动的关系,树上可能会掉下栗子来,树上掉栗子显然是一个偶然事件,并且发生的概率很低,那么我们怎么求它的概率分布呢?
其实我们可以将事件切分,将这个问题转化成二项分布问题。
比如我们把一天的时间切分成了若干份,这样对于每一份时间来说,最多只会掉一个栗子。那么,这就转化成了一个二项分布问题。理论上来说不会有两颗栗子掉下的时间完全一样,所以只要我们将时间切分得足够细,就可以保证一段时间之中最多只会掉下一个栗子(否则就不满足二项分布)。
假设我们把一天的时间切分成了n份,我们想知道一天当中会有k个栗子掉下的概率,根据二项分布的公式,这个概率就是:P(k)=CnKpk(1-p)n-k
到这里,我们往前迈出了坚实的一步,写出了概率的表达式。
我们虽然有了式子,但是好像没什么用,因为我们只知道p是单位时间内有栗子掉下的概率,我们怎么知道这个概率是多大呢?难道还真的去测量吗?
要解决这个问题,还得回到二项分布。我们可以利用二项分布求一下每天掉下栗子数量的期望,显然对于每一个单位时间而言,发生栗子掉落的概率是p,所以整体的期望是:
E(X)=np
我们令这个期望值是[公式],那么根据这个式子,我们可以表达出p了。
p=λ/p
我们把这个p的式子带入原式,可以得到:
前面说了,为了满足二项分布,我们需要让单位时间尽量小,防止会有同一时刻掉下两个栗子的情况发生。所以这个n应该越大越好,我们可以用上之前学过的极限,让n趋向于无穷,所以这个问题就变成了一个求极限的问题。
我们来算一下这个极限:
我们把这个极限拆分开来看,其中:
所以,我们代入,可以得到:
这个就是泊松分布的概率密度函数了,也就是说在一天当中掉下k个栗子的概率就是[公式]。
也就是说泊松分布是我们将时间无限切分,然后套用二项分布利用数学极限推导出来的结果。本质上来说,它的内核仍然是二项分布。使用泊松分布的原因是,当n很大,p很小的时候,我们使用二项分布计算会非常困难,因为使用乘方计算出来的值会非常巨大,这个时候,我们使用泊松分布去逼近这个概率就很方便了。
从数学的觉得,还是看这篇《泊松分布 (Poisson Distributions) 的推导》较好
泊松分布的应用
预测未来发生的事件数!
更正式地说, 在固定的时间间隔内,预测给定事件数量的可能性.
例如:如果您曾经作为销售人员,则可以将作为售卖的“事件”定义,例如,某个顾客从您那里购买某物(事实是关键时刻,而不仅仅是浏览)。
可能是您每天在网站上吸引的访问者人数,
下个月广告获得的点击次数,
轮班期间获得的电话次数,
甚至明年死于致命疾病的人数等等。
参考内容:
泊松分布的现实意义是什么,为什么现实生活多数服从于泊松分布? - ctian的回答 - 知乎
用一个”栗子“讲清楚泊松分布 https://zhuanlan.zhihu.com/p/139114702
一文秒懂概率分布 https://zhuanlan.zhihu.com/p/28309212
泊松分布与美国枪击案 http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html
泊松分布 (Poisson Distributions) 的推导 https://zhuanlan.zhihu.com/p/26263743
转载本站文章《泊松分布的仿真与应用》,
请注明出处:https://www.zhoulujun.cn/html/theory/Mathematics/ProbabilityTheory/8562.html