【統計学入門】信頼区間と信用区間の違いを徹底解説

こんにちは、青の統計学です!

今回は、信頼区間と信用区間 の違いについて解説します。

信用区間とは若干違う「HPD区間」については以下の記事でまとめているので、ぜひご覧ください。

青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!

【完全版】統計検定2級チートシート
【最短合格】統計検定2級の攻略本|4万字

信頼区間と信用区間

信頼区間と信頼区間で共通しているのは、母集団の未知のパラメータ(平均値、分散、割合など)の点推定値の信頼できる範囲を提供しているということです。

それぞれ違いを見ていきましょう。

信頼区間

まず、信頼区間について説明します。

母集団の未知のパラメータ $\theta$ を推定するために、$n$ 個のランダムサンプル $X_1, X_2, \ldots, X_n$ から点推定量 $\hat{\theta}$ が計算されます。

点推定量は母集団パラメータの単一の値の推定値ですが、サンプリング誤差のため、当然真の値と一致するとは限りません

したがって、信頼区間は $\hat{\theta}$ の周りの範囲を提供し、この範囲内に真の母集団パラメータ $\theta$ が含まれる確率を指定します。

信頼区間は、以下の形で表されます。

$$\hat{\theta} \pm z_{\alpha/2} \cdot \text{SE}(\hat{\theta})$$

ここで、$z_{\alpha/2}$ は標準正規分布の上側 $\alpha/2$ 分位点、$\text{SE}(\hat{\theta})$ は $\hat{\theta}$ の標準誤差です。

この式は、点推定値 $\hat{\theta}$ の周りの範囲を定義し、その範囲内に真の母集団パラメータ $\theta$ が含まれる確率が $(1 – \alpha)$ になることを意味します。

通常、$\alpha$ は 0.05 または 0.01 に設定され、対応する信頼水準は 95% または 99% となります。

この辺りは統計検定2級では頻出の部分ですね。

具体例を挙げてみましょう。

$n$ 個のランダムサンプル $X_1, X_2, \ldots, X_n$ から母集団平均 $\mu$ の点推定量 $\bar{X}$ を計算したとします。

このとき、$\bar{X}$ の標準誤差は $\text{SE}(\bar{X}) = \sigma / \sqrt{n}$ です (ここで $\sigma$ は母集団の標準偏差)。

有意水準 $\alpha = 0.05$ のとき、$z_{0.025} = 1.96$ なので、95% 信頼区間は次のように計算されます。

$$\begin{equation*}
\bar{X} \pm 1.96 \cdot \frac{\sigma}{\sqrt{n}}
\end{equation*}$$

つまり、この範囲内に真の母集団平均 $\mu$ が含まれる確率は 95% となります。

標準偏差 $\sigma$ が未知の場合は、不偏分散の平方根 $s$ を代入して近似的な信頼区間を計算します。

信用区間

一方、信用区間は、ベイズ統計学における概念です。

事前分布と尤度関数から得られる事後分布を使用して、母集団パラメータの credible interval (信用区間)を構築します。

信用区間は、母集団パラメータが特定の範囲内に含まれる事後確率を提供します。

信用区間は、事後分布から直接計算されます。

事後分布 $p(\theta | x)$ に対して、$\int_a^b p(\theta | x) \, d\theta = 1 – \alpha$ を満たす範囲 $[a, b]$ が信用区間となります。

つまり、母集団パラメータ $\theta$ がこの範囲内に含まれる事後確率は $(1 – \alpha)$ です。

数学的には、信頼区間と信用区間は次のように表すことができます

$$
P\left(\hat{\theta} – z_{\alpha/2} \cdot \text{SE}(\hat{\theta}) \leq \theta \leq \hat{\theta} + z_{\alpha/2} \cdot \text{SE}(\hat{\theta})\right) = 1 – \alpha \quad \text{(信頼区間)}
$$

$$
\int_a^b p(\theta | x) \, d\theta = 1 – \alpha \quad \text{(信用区間)}
$$

たとえば、正規分布の平均 $\mu$ に対する事後分布が $\mathcal{N}(\mu_0, \sigma_0^2)$ であれば、$\mu_0 \pm z_{\alpha/2} \sigma_0$ が $(1 – \alpha)$ の信用区間となります。

ベイズ統計の考え方に慣れたい方はこちらもどうぞ。

さて、ここまでで差は理解できましたでしょうか。

両者の主な違いは、信頼区間が頻度論的アプローチに基づいているのに対し、信用区間がベイズ的アプローチに基づいている点です。

信頼区間は長期的な確率的振る舞いに基づいており、実験や調査を無限に繰り返した場合の範囲を示唆しています。

一方、信用区間はベイズ理論に基づき、具体的なデータに対する事後分布から直接計算されるパラメータの範囲を表しています。

信用区間は事前情報を反映できるため、信頼区間よりも狭い区間を得られる可能性がありますが、事前分布の選択が重要になります。

まとめ

– 信頼区間と信用区間は、母集団の未知のパラメータ(平均値、分散、割合など)の点推定値の信頼できる範囲を提供する。

– 信頼区間は頻度論的アプローチに基づいており、長期的な確率的振る舞いに基づく。母集団パラメータ $\theta$ の点推定量 $\hat{\theta}$ に対して、$\hat{\theta} \pm z_{\alpha/2} \cdot \text{SE}(\hat{\theta})$ の形式で表される。ここで、$z_{\alpha/2}$ は標準正規分布の上側 $\alpha/2$ 分位点、$\text{SE}(\hat{\theta})$ は $\hat{\theta}$ の標準誤差である。この範囲内に真の母集団パラメータ $\theta$ が含まれる確率は $(1 – \alpha)$ となる。
$$
P\left(\hat{\theta} – z_{\alpha/2} \cdot \text{SE}(\hat{\theta}) \leq \theta \leq \hat{\theta} + z_{\alpha/2} \cdot \text{SE}(\hat{\theta})\right) = 1 – \alpha \quad \text{(信頼区間)}
$$

– 信用区間はベイズ統計学における概念であり、事前分布と尤度関数から得られる事後分布を使用して構築される。事後分布 $p(\theta | x)$ に対し、$\int_a^b p(\theta | x) \, d\theta = 1 – \alpha$ を満たす範囲 $[a, b]$ が $(1 – \alpha)$ の信用区間となる。
$$
\int_a^b p(\theta | x) \, d\theta = 1 – \alpha \quad \text{(信用区間)}
$$

– 信頼区間は頻度論的アプローチに基づくのに対し、信用区間はベイズ的アプローチに基づく点が主な違いである。信頼区間は長期的な確率的振る舞いを反映し、信用区間は具体的なデータセットから得られる事後分布に依存する。

– 実務においては、両者ともに母集団パラメータの推定値の信頼性を評価するために広く使われている。適切な手法の選択は分析の目的や前提条件に依存する。

FOLLOW ME !