指数分布をわかりやすく解説|無記憶性
指数分布
指数分布は、連続型確率分布の一つですね。
大学の学部レベルの試験や統計検定二級まで、頻出です。
この分布は、ポアソン過程において、ある事象が発生するまでの時間間隔を記述するのに使われます。
指数分布の定義や性質について詳しくみていきましょう。
指数分布の確率密度関数について
事象が発生するまでの時間間隔 \(X\) が \(x\) 以上となる確率は、\(x\) 時間経過後も事象が発生しない確率であり、$$P(X > x) = e^{-\lambda x}$$と表されます。
したがって、指数分布の確率密度関数は、次のように定義されます。
$$f(x|\lambda) = \begin{cases}
\lambda e^{-\lambda x} & (x \geq 0) \\
0 & (x < 0) \end{cases} $$
\(x < 0\) の場合は確率が0となるので、確率密度関数は上記のように表現できるということですね。
指数分布の累積分布関数は次のように表されます。
$$F(x|\lambda) = \begin{cases}
1 – e^{-\lambda x} & (x \geq 0) \\
0 & (x < 0) \end{cases} $$
期待値と分散
基礎的な特徴を見ていきましょう。
指数分布の期待値は \(1/\lambda\) で、分散は \(1/\lambda^2\) です。
つまり、\(\lambda\) が大きいほど、事象の発生までの待ち時間が短くなります。
期待値の逆数$\lambda$は、事象が発生するまでの平均待ち時間を表します
指数分布の確率密度関数は以下のように定義されましたね
$f(x) = \lambda e^{-\lambda x}$ $(x \geq 0)$
期待値の定義から、以下の積分を計算します
$E[X] = \int_0^{\infty} xf(x)dx = \int_0^{\infty} x\lambda e^{-\lambda x}dx$
ここで、部分積分を使用します。
$u = x$とおき、$du = dx$ $dv = \lambda e^{-\lambda x}dx$とおき、$v = -e^{-\lambda x}$
部分積分の公式 $\int udv = uv – \int vdu$ を適用すると
$E[X] = \left[-xe^{-\lambda x}\right]_0^{\infty} + \int_0^{\infty} e^{-\lambda x}dx$
第1項を計算すると: $\lim_{x \to \infty} (-xe^{-\lambda x}) – (-0 \cdot e^{-\lambda \cdot 0}) = 0 – 0 = 0$
第2項を計算すると: $\int_0^{\infty} e^{-\lambda x}dx = \left[-\frac{1}{\lambda}e^{-\lambda x}\right]_0^{\infty}$ $= 0 – (-\frac{1}{\lambda}) = \frac{1}{\lambda}$
したがって、指数分布の期待値は: $E[X] = \frac{1}{\lambda}$となります。
分散も部分積分を使って、同じように計算することができます。
$${V(X)=\frac{1}{\lambda^2}}$$
指数分布は、ガンマ分布の特殊な場合であり、形状パラメータ \(k=1\) のときに現れます。
指数分布の無記憶性とは
指数分布は、無記憶性 (memoryless property) を持ちます。
これは、ある時点までに事象が発生していなかった場合、その後どれだけ時間が経過しても、事象が発生するまでの残り時間の分布は変わらないということを意味します。
数学的には、任意の \(s \geq 0\) と \(t \geq 0\) に対して、次の関係が成り立ちます。
$$\begin{align*} P(X > s + t | X > s) &= P(X > t) \\
&= e^{-\lambda t}
\end{align*}$$
指数分布の無記憶性は、$$P(X > s + t | X > s) = \dfrac{P(X > s + t)}{P(X > s)} = \dfrac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t}$$と導出でき、右辺は \(t\) のみに依存することから明らかです。
無記憶性は、指数分布を扱う上で重要な性質です。
例えば、コールセンターの待ち時間を考えると、既に10分待っている人と今着信した人とで、次の着信までの待ち時間の分布は同じになります。(この性質を利用すれば、システムのモデル化が容易になります。)
また、地震の間隔にもよく指数分布が使われますが、「今地震が起きたから、次が起きるのはだいぶ先だろう」というよくある希望的観測は間違っているということです。
以上のように、指数分布は数式で表現でき、無記憶性など独特の性質を持っていることがわかりました。
まとめ
– 指数分布は連続確率分布の一つ。ポアソン過程において事象発生までの時間間隔を記述する。
– 確率密度関数
$$f(x|\lambda) = \begin{cases}
\lambda e^{-\lambda x} & (x \geq 0) \\
0 & (x < 0) \end{cases}$$ – 期待値は \(1/\lambda\)、分散は \(1/\lambda^2\)。\(\lambda\)が大きいほど事象発生までの待ち時間が短くなる。
– 無記憶性: \(P(X > s + t | X > s) = P(X > t) = e^{-\lambda t}\)。事象が発生していなくても、残り時間の分布は変わらない。
– 累積分布関数: $$F(x|\lambda) = \begin{cases}
1 – e^{-\lambda x} & (x \geq 0) \\
0 & (x < 0) \end{cases}$$ – ガンマ分布の特殊な場合で、形状パラメータ\(k=1\)のときに現れる。 – 信頼性理論、待ち行列理論、生存時間解析など、様々な分野で利用される。ポアソン過程やマルコフ過程の理論的基礎をなす。