【統計学】ポアソン分布についてわかりやすく解説
ポアソン分布(poisson distribution)
統計学および確率論で用いられるポアソン分布とは、ある事象が一定の時間内に発生する回数を表す離散確率分布です。
定数
ポアソン分布は、現実の多くの現象をモデル化するのに適しています。
例えば、1分間のWebサーバへのアクセス数や、一定期間内に起こる交通事故の数などは、ポアソン分布によってモデル化することができます。
・交通事故に遭う確率
・火事が発生する確率
などの確率分布にポアソン分布は使われます。
確率
このような特徴を持つ二項分布を、特にポアソン分布と呼んでいます。
数学的背景
分布関数は以下のようになります。
このポアソン分布が使われる確率過程「ポアソン過程」については以下のコンテンツでご覧ください。
[例題1]
ある町の1日あたりの交通死亡発生数は
(1)少なくとも一件の交通事故が発生する確率
(2)多くても一件しか発生しない確率
(1)1から交通事故が一件も起きない確率を引けば良いです。
(2)求める確率は、「多くても一件」なので、
同じように、
よって求める確率は、
期待値と分散(expectation & variance)
結論としては、期待値も分散も
数式で書くと、
[例題2]
確率変数Xがポアソン分布
(1)
(2)
[解説]
(1)まず期待値は、このように0から無限大までの確率の和に
次に、かけた
そして分子の
全ての確率の和は1であるという、確率質量関数の定義に従い、
次は、
やることは同じです。今度は、
約分をすると今度は、分子のλを2個だけΣの前に持ってくる必要があります(分子とXの数を合わせるため)
よって
(2)分散は、2乗の期待値から期待値の2乗を引いたものでした。
第一項をよく見ると、(1)の形がうまく使えることに気が付きます。
あとは、計算するだけです。
(1)より、
よって分散も
さて、ポアソン分布では平均と分散が等しいという性質がありますが、実データではこの仮定が成り立たないことがあります。
この現象をオーバーディスパージョンと呼び、その場合は負の二項回帰などの代替モデルを考慮する必要があります。
CODE
有名なポアソン分布の例を扱ってみましょう。
プロイセン騎兵連隊において1年間に馬に蹴られて死んだ兵隊の数の分布です。
死亡数 | 0 | 1 | 2 | 3 | 4 | 5 |
観測数 | 109 | 65 | 22 | 3 | 1 | 0 |
1年間に馬に蹴られて1人の兵士が死亡するという生起率
これは、単位あたりの平均事故数と考えていただいてokです。
from scipy.stats import poisson
import matplotlib.pyplot as plt
import numpy as np
# データの定義
deaths = [0, 1, 2, 3, 4, 5]
observations = [109, 65, 22, 3, 1, 0]
# ポアソン分布の生起率の設定
lambda_ = 0.61
# ポアソン分布に従うと仮定した場合の頻度の計算
expected_frequencies = [poisson.pmf(k, lambda_) * sum(observations) for k in deaths]
# 図示
fig, ax = plt.subplots()
ax.bar(deaths, observations, width=0.4, label='Observed', align='center')
ax.bar(np.array(deaths) + 0.4, expected_frequencies, width=0.4, label='Poisson Expected', align='center')
ax.set_xlabel('Number of Deaths')
ax.set_ylabel('Number of Occurrences')
ax.set_title('Poisson Distribution of Deaths by Horse Kicks')
ax.legend()
plt.show()

かなりポアソン分布に近いデータだということがわかりましたね!
生起率λの検定(hypothesis testing)
以上のようなポアソン分布の生起率
仮説
棄却域は以下のように設定します。
左辺の第1項は生起率の最尤推定量です。
以下のコンテンツで解説しましたが、生起率の最尤推定量は標本平均です。
ここで検定統計量は、以下のようになります。
分散も生起率
この検定統計量は標準正規分布に従います。
そのほか統計的仮説検定について学習したい方は、以下のコンテンツをご覧ください。
再生性(reproductive property)
ポアソン分布には、「再生性」という嬉しい特性があります。
再生性とは、「確率変数同士を足しても、その分布がわかる」という特性です。
命題
1:
2:
3:
ならば、
つまり、
もっと汎用的な話としては、以下のようになります。
和の分布も当然ポアソン分布に従います。
生起率は

では、再生性があると何が嬉しいのかというと、標本平均の分布が正確にわかるということが挙げられます。
標本平均が
あとは、ポアソン分布の分布関数を用いると答えが求められる、という話です。
ちなみにベルヌーイ分布や正規分布にも再生性はありますので、確率変数同士を足しても分布がわかります。
詳しくは、WEB版青の統計学の記事をご覧ください。
一般線形モデルを学習したい方やポアソン分布の最尤推定量を知りたい方は以下のコンテンツをご覧ください。
補足|ポアソンの極限定理と二項分布
ちなみにポアソン分布は、二項分布の極限としても現れます。
具体的には、試行回数nが大きく
これは「ポアソンの極限定理」として知られています。
二項分布の試行回数
二項分布の確率質量関数である、
ここで、
よって、残ったものは