ベイズ統計におけるHPD区間をわかりやすく解説|信頼区間との違いは?
こんにちは、青の統計学です!
今回は、HPD区間 について解説します。
HPD区間(Highest Posterior Density Interval)は、ベイズ統計における区間推定において重要な概念です。
数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!
HPD(Highest Posterior Density Interval)区間とは
ざっくりいえばHPD区間は、指定された確率(例えば95%)を含む最小の区間を求めます。
HPD区間は、事後分布から得られる区間であり、その区間に含まれる事後確率が最大となるような区間を指します。
つまり、$\int_{\text{HPD}}p(\theta|x)\,d\theta\geq\int_{\text{HPD}^c}p(\theta|x)\,d\theta$を満たす区間のことです。
ここで、$p(\theta|x)$は事後分布、$\theta$は母数、$x$はデータを表しています。
HPD区間の性質として、単峰性の事後分布においては、HPD区間は唯一つの連続した区間になります。
しかし、多峰性の場合は複数の区間に分かれる可能性があります。
\(\alpha\)を所望の信頼水準(通常95%が使われます)とすると、HPD区間は$\int_{\text{HPD}}p(\theta|x)\,d\theta=1-\alpha$を満たす最小の区間となります。
信頼区間と信用区間とHPD区間
こちらの記事でも取り上げた、信頼区間やベイズ統計における信用区間とは何が違うのでしょうか?
実は頻度論における信頼区間、ベイズ統計における信用区間、そしてHPD区間の3つは、いずれもパラメータの不確実性を表現するための統計的手法ですが、それぞれに違いがあります。
詳しく見ていきましょう。
- 頻度論における信頼区間
頻度論的アプローチでは、パラメータは固定された未知の値であると考えます。
信頼区間は、この固定されたパラメータを含む区間を、データのサンプリングを繰り返した場合の長期的な頻度で定義します。
例えば、95%信頼区間は以下のように解釈されます: 「もし同じ実験を何度も繰り返し、毎回95%信頼区間を計算するなら、その区間が真のパラメータ値を含む割合は長期的に95%になる」
数学的には、母集団平均$\mu$の95%信頼区間は次のように表されます
$${[\bar{x} – 1.96 \cdot \frac{\sigma}{\sqrt{n}}, \bar{x} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}]}$$
$\bar{x}$はサンプル平均、$\sigma$は母集団の標準偏差、$n$はサンプルサイズです。
- ベイズ統計における信用区間
ベイズ統計では、パラメータ自体が確率分布に従うと考えます。
信用区間は、事後分布に基づいてパラメータが特定の区間に含まれる確率を直接表現します。
95%信用区間の解釈: 「与えられたデータに基づいて、パラメータが区間に含まれる確率が95%である」
数学的には、事後分布$p(\theta|x)$に基づく95%信用区間$[a, b]$は次の条件を満たします
$${P(a \leq \theta \leq b | x) = \int_a^b p(\theta|x) d\theta = 0.95}$$
- HPD (Highest Posterior Density) 区間
HPD区間もベイズ統計の枠組みで定義されますが、通常の信用区間とは少し異なります。
HPD区間は、指定された確率(例えば95%)を含む最小の区間を求めるんでしたね。
95% HPD区間の特徴
- 区間内の任意の点の事後確率密度が、区間外の任意の点よりも高い
- 指定された確率(95%)を含む最小の区間
数学的には、95% HPD区間$$[a, b]$$は次の条件を満たします
$${P(a \leq \theta \leq b | x) = 0.95}$$ $${p(\theta_1|x) \geq p(\theta_2|x) \text{ for all } \theta_1 \in [a,b] \text{ and } \theta_2 \notin [a,b]}$$
ざっとまとめると以下のような違いがあります。
- 解釈:
- 信頼区間:長期的な頻度を表す
- 信用区間とHPD区間:データに基づく直接的な確率を表す
- 計算方法:
- 信頼区間:サンプリング分布に基づく
- 信用区間とHPD区間:事後分布に基づく
- 形状:
- 信頼区間と信用区間:通常、対称的
- HPD区間:事後分布の形状に応じて非対称になる可能性がある
- 最適性:
- HPD区間:指定された確率を含む最小の区間を提供
- 適用範囲:
- 信頼区間:主に単一パラメータの推定に使用
- 信用区間とHPD区間:複数パラメータの同時推定にも適用可能
計算方法とその具体例
さて、HPD区間の話に戻ります。
区間の計算には、主に解析的な方法と数値的な方法の二つのアプローチがあります。
解析的な方法は、事後分布が既知の確率分布に従う場合に適用できます。
例えば、事後分布が正規分布に従う場合、その平均と分散から直接HPD区間を求めることができます。
正規分布の場合、HPD区間は平均を中心とする対称な区間となり、その幅は分散に基づいて決定されます。
具体的には、標準正規分布の分位点を用いて以下のように計算されます
$${[\mu – z_{\alpha/2}\sigma, \mu + z_{\alpha/2}\sigma]}$$
$\mu$は事後分布の平均、$\sigma$は標準偏差、$z_{\alpha/2}$は標準正規分布の上側$\alpha/2$分位点です。
しかし、多くの実際の問題では、事後分布が単純な形状を持たない場合があります。
そのような場合、数値的な方法が有効です。数値的方法の中でも、マルコフ連鎖モンテカルロ法(MCMC)は特に広く用いられています。
これは、複雑な事後分布からサンプルを生成する強力な手法です。
具体的な仕組みは以下の記事をご覧ください。
ここでは、簡単な手順をご説明します。
MCMCを用いたHPD区間の計算手順はこんな感じです。
- MCMCを用いて事後分布から多数のサンプルを生成します。
- これらのサンプルを昇順に並べ替えます。
- 指定された確率(例えば95%)を含む最小の区間を探索します(つまり、サンプルの中から連続する95%のデータ点を含む最小の区間を見つける)
この数値的アプローチの嬉しさは、事後分布の形状に関わらず適用できることです。
特に、多変量の問題や複雑なモデルにおいて有効です。
ここからは上で触れたやり方について、具体例を交えて説明します。
まず、事後分布が正規分布$\mathcal{N}(\mu,\sigma^2)$に従う場合を考えましょう。
$100(1-\alpha)\%$HPD区間は解析的に計算できます。
具体的には、事後平均$\mu$を中心とし、両側に$z_{1-\alpha/2}\sigma$を加減した区間
\begin{equation*}
\left[\mu-z_{1-\alpha/2}\sigma,\mu+z_{1-\alpha/2}\sigma\right]
\end{equation*}
が$100(1-\alpha)\%$HPD区間となります。
$z_{1-\alpha/2}$は標準正規分布の$100(1-\alpha/2)$パーセンタイル点です。
例えば、95%HPD区間を求める場合は$\alpha=0.05$なので、$z_{0.975}=1.96$を用います。
一方、事後分布が正規分布に従わない場合は、数値的な方法が必要となりましたね。
MCMC法によって事後分布からサンプルを得た後、それらのサンプル値を降順に並べ、上位$(1-\alpha)$の割合に相当する範囲を求めることで、HPD区間を近似的に計算できます。
例えば、ベータ分布$\mathrm{Beta}(2,5)$を事前分布、観測データ$\boldsymbol{x}=(0.3,0.6,0.7)$とする状況を考えましょう。
この場合の事後分布は$\mathrm{Beta}(2+\sum x_i, 5+3-\sum x_i)=\mathrm{Beta}(4.6,6.4)$となります。
ここからMCMCによりサンプルを$10^6$個生成し、それらを昇順に並べた値の上位95%の範囲を計算すると、95%HPD区間は$[0.3126, 0.8602]$となります。
つまり、母数の真値がこの区間に入る確率は95%以上であると解釈できます。
$$\begin{align*}
\text{MCMC サンプル (上位10個)}\\
&0.8546, 0.8576, 0.8586, 0.8602, 0.8614, \\
&0.8621, 0.8647, 0.8665, 0.8673, 0.8688
\end{align*}$$
$$\begin{align*}
\text{MCMC サンプル (下位10個)}\\
&0.3126, 0.3128, 0.3134, 0.3139, 0.3141, \\
&0.3145, 0.3149, 0.3156, 0.3158, 0.3161
\end{align*}$$
このように、HPD区間はパラメータの点推定値よりも信頼性が高く、同時に複数のパラメータの推定も可能になるため、ベイズ統計における区間推定の指標としてよく使われています。
特に多峰性の事後分布を扱う場合は、HPD区間を用いることで適切な区間推定ができます。