幾何分布とは?意外とビジネスに役立つ確率分布

1. 幾何分布(Geometric Distribution)の概要

幾何分布は、離散確率分布の一種で「ある試行を繰り返したときに、初めて成功が得られる試行回数に関する分布」を表します。

管理人

たとえば、セールス担当が見込み顧客に電話をかけ続けて初めて受注につながるまでの通話回数などが典型的な例ですね

ビジネスの現場では「初回成功までに必要な回数」や「失敗が続いた後の成功確率」などを評価する場面が多々あり、幾何分布を活用することで意思決定の精度を高められます。

より応用的な負の二項分布や超幾何分布については、こちらの記事がおすすめです。

超幾何分布を正しく理解する
負の二項分布を実験に活かした具体例

2. 幾何分布の定義

1回の試行で成功する確率を ${p}$ とします。

失敗する確率は${1 – p}$です。

「初めて成功するまでに要する試行回数」を確率変数${X}$とするとき、幾何分布は以下のように定義されます。

  • 定義1(試行回数を表す幾何分布)
    • ${P(X = k) = (1 – p)^{k-1} p, \quad k = 1, 2, 3, \ldots}$
    • ${X = k}$とは「${k}$ 回目で初めて成功する」ことを意味します。
      直感的にみると、最初の${k-1}$回はすべて失敗し、${k}$回目に成功する確率です。
  • 定義2(失敗回数を表す幾何分布)
    文献によっては「初めて成功するまでの失敗回数」を幾何分布と定義する場合があります。
    • ${ P(Y = k) = (1 – p)^{k} p, \quad k = 0, 1, 2, \ldots}$
    • 「 ${k}$回失敗した後、${k+1}$回目に成功する」パターンです。

どちらの定義を使うかは場面によって異なりますが、本記事では「${k}$ 回目に初めて成功する」バージョン(定義1)を中心に解説します。

大事な点ですが、幾何分布では各試行が独立していることを前提とします(前回失敗しても次回の成功確率は変わらない)。実際には「前回失敗のフィードバックを学習した結果、成功確率が上昇する」ようなケースも少なくありません。そうした場合には幾何分布よりも別のモデルを検討すべきかもしれませんね。

これは後述する無記憶性につながる話です。

3. 幾何分布の性質

3.1 期待値(平均)

幾何分布に従う確率変数${X}$の期待値(平均値)は以下です

$${E[X] = \frac{1}{p}}$$

成功確率 ${p}$ が大きいほど平均試行回数${E[X]}$が小さくなることを示しています。成功率が高い事象なら、早めに成功を達成できるため試行回数は少なくて済みます。

逆に成功率が小さい場合は、成功に時間(回数)がかかることを意味します。

3.2 分散

分散は以下の通り。

$${\mathrm{Var}(X) = \frac{1 – p}{p^2}}$$

成功確率${p}$が${0.5}$に近いほど分散はそこそこ大きくなり、非常に成功しづらい(${p}$が小さい)場合や非常に成功しやすい(${p}$が大きい)場合は分散もまた変動します。

ビジネス上は「平均的に見た回数だけでなく、そのばらつきにも注目してリスクを見積もる」ことが大事ですね

統計検定準一級で出てくるので、この辺は暗記しておくと問題を解く上では安心かもしれないですね。

3.3 幾何分布と無記憶性

幾何分布は「無記憶性(Memoryless Property)」と呼ばれる性質を持つ点で特徴的です。
具体的には、幾何分布に従う確率変数 ${X}$ が「はじめて成功が得られる試行回数」を表しているとき、ある段階でまだ成功していなかった場合、その後に要する試行回数の分布が「最初からやり直した」のと同じ分布になる、という性質があります。

管理人

指数分布もそうですね。直近で地震が起きたとしても、次の地震が起きる確率はその事象に左右されない〜、などの説明が多いです。

言い換えると、「何回連続で失敗しても、次に成功する確率は常に一定」ということです。ビジネス文脈でいえば「過去にどれだけ失注が続こうが、次のアプローチでは毎回同じ成功確率で挑める(前回の失敗の影響が確率的にはない)」という考え方に対応します。

…まあもちろん、現実のビジネスでは学習効果や顧客心理などいろいろな要因が絡むので、上のような無記憶性が完全に当てはまるケースなどは正直少ないとは思いますが、純粋に確率論だけを考えれば「失敗が続いたからといって成功確率が下がるわけではない」という見方ができるわけです。

4. テレアポ(コールドコール)における成功確率の分析

他の記事でも書いていますが、いかに意思決定プロセスを改善するかが、ビジネスでデータサイエンスを活かす本質なので、上記の数学的基礎はもちろんですが、どんな課題を解決できるのかをしっかり考えてほしいです。

  • ビジネスシーン
    セールス担当が見込み顧客にコールドコールをする場合、1回の電話でアポイントを獲得できる確率を ${p}$ とします(過去の実績等から推定可能)。このとき、はじめてアポイントを獲得できるまでに要する電話の本数 ${X}$ は幾何分布に従うと考えてみましょう。
  • 計算例
    例えば、アポイント獲得の成功確率が ${p = 0.2}$であると仮定します。すると、期待される試行回数(つまり電話の本数)の平均は${E[X] = \frac{1}{0.2} = 5.}$平均すると 5 回目で初めてアポイントに成功することがわかります。
管理人

勿論フィクションですが、しつこいですね〜笑

注意点

pの推定が適当だと、導かれる試行回数の期待値やコスト試算も大きくズレるリスクがあります

  • 意思決定への利用
    • セールス担当一人あたりの 1 日の電話可能件数から、平均的なアポイント獲得見込み数を計算できる。
    • もしアポイント獲得確率を 20% から 25% に高める(${p = 0.25}$)施策をとると、期待される試行回数は ${E[X] = \frac{1}{0.25} = 4}$と短縮される。つまり、同じ工数で成果をより多く得られる可能性が高まる。

上のような簡易的な試算をもとに、教育研修・顧客アプローチ方法の改善に予算を振り向けるべきかどうかなどを事業判断に結びつけられます。

5. まとめ!

幾何分布は「初回成功までに必要な試行回数」を扱う離散確率分布であり、以下のような要点が特徴的です。

幾何分布の要点

  • 期待値は ${\displaystyle \frac{1}{p}}$
  • 無記憶性が成り立つ
  • 各試行が独立し、成功確率が常に一定と仮定する

ビジネスにおいては、テレアポでの初回受注や Web 広告での初回コンバージョンなど、「いつ初めて成果が出るか」という場面で幾何分布を応用できます。特に費用対効果の分析やスケジュール見積もりに大きく寄与します。

もっとも、現実には試行が独立でなかったり成功確率${p}$が変化したりするケースもあるため、仮説として幾何分布を置きつつ、実測データやフィードバックをもとに継続的なモデル改善が欠かせませんね。

FOLLOW ME !