【統計検定でも頻出】母比率の差の検定と具体例
こんにちは、青の統計学です!
今回は、母比率の差の検定 について解説します。
母平均や母分散の検定については、こちらの記事をご覧ください。
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!
母比率の差の検定
母比率の差の検定は、2つの母集団の比率の差を評価するための統計的手法です。
支持率の問題など、統計検定や大学のテストでもよく出るイメージがあります。
この検定は、例えば2つの医療処置の有効性を比較したり、2つの製品の不良率を比較したりする際に使用されます。
母比率の検定の理論的背景は、二項分布とその近似である正規分布に基づいています。
分布をおさらいしたい人は、こちらをご覧ください。
検定の手順を一通りさらってみましょう。
さて、母比率の検定は、二項分布の性質を利用して構築されています。
二項分布は、確率実験において成功と失敗の2つの結果しか起こりえない場合に適用される離散確率分布です。
母集団1から標本サイズ$n_1$の標本を抽出し、そのうち$X_1$個の成功があったとします。
$X_1$は二項分布$\mathcal{B}(n_1, p_1)$に従うことがわかっています。
$$
P(X_1 = k) = \binom{n_1}{k} p_1^k (1-p_1)^{n_1-k}, \quad k=0,1,\dots,n_1
$$
同様に、母集団2からの標本$X_2$は二項分布$\mathcal{B}(n_2, p_2)$に従います。
検定の手順としては、2つの母集団からそれぞれ標本を抽出し、標本の比率 $\hat{p}_1$、 $\hat{p}_2$ を計算します。
次に、帰無仮説 $H_0: p_1 = p_2$ と対立仮説 $H_1: p_1 \neq p_2$ を設定します。
ここで $p_1$ と $p_2$ はそれぞれ母集団1と母集団2の母比率です。
検定統計量は、標本比率の差 $\hat{p}_1 – \hat{p}_2$ から計算されます。
標本比率$\hat{p}_1$と$\hat{p}_2$は、それぞれ$\hat{p}_1 = X_1/n_1$、$\hat{p}_2 = X_2/n_2$と定義されます。
(実際の応用では、真の比率 $p_1$ と $p_2$ は未知なので、サンプル比率 $\hat{p}_1$ と $\hat{p}_2$ で代用しています)
標本サイズが十分に大きい場合、$X_1$と$X_2$の分布は正規分布で近似できます。
これは中心極限定理によるものです。
$X_1$の期待値と分散はそれぞれ$\mu_1 = n_1p_1$、$\sigma_1^2 = n_1p_1(1-p_1)$です。
同様に、$X_2$の期待値と分散は$\mu_2 = n_2p_2$、$\sigma_2^2 = n_2p_2(1-p_2)$です。
したがって、$\hat{p}_1$と$\hat{p}_2$の分布は、それぞれ平均$p_1$、分散$p_1(1-p_1)/n_1$と平均$p_2$、分散$p_2(1-p_2)/n_2$の正規分布で近似できます。
$H_0: p_1 = p_2$が真の場合、$\hat{p}_1$と$\hat{p}_2$の差$\hat{p}_1 – \hat{p}_2$の分布は平均0、分散$p(1-p)(1/n_1 + 1/n_2)$の正規分布に従うことがわかります。
$p$は共通の母比率ですね。
しかし、$p$は未知なので、その代わりに$\hat{p} = (X_1 + X_2)/(n_1 + n_2)$を使って分散を推定します。
$$
\hat{\sigma}^2 = \frac{\hat{p}(1-\hat{p})}{n_1} + \frac{\hat{p}(1-\hat{p})}{n_2}
$$
このとき、検定統計量
$$
Z = \frac{\hat{p}_1 – \hat{p}_2}{\hat{\sigma}}
$$
は標準正規分布$\mathcal{N}(0, 1)$に漸近的に近づきます。
具体例
例えば、ある製薬会社が開発した新しい血圧降下剤の有効性を評価するために、プラセボ群とその薬剤群にそれぞれ1000人ずつ割り当てた臨床試験を行ったとします。
プラセボ群では120人が6ヶ月後に十分な血圧低下が見られ、薬剤群では180人で同様の結果が得られたとしましょう。
つまり、$\hat{p}_1 = 120/1000 = 0.12$、$\hat{p}_2 = 180/1000 = 0.18$です。
$H_0: p_1 = p_2$を検定するために、まず$\hat{p} = (120 + 180)/2000 = 0.15$を計算します。
したがって、$\hat{\sigma}^2 = 0.15 \times 0.85 \times (1/1000 + 1/1000) = 0.000127$、$\hat{\sigma} = \sqrt{0.000127} \approx 0.0113$です。
検定統計量は
$$
Z = \frac{0.18 – 0.12}{0.0113} \approx 5.31
$$
となります。
有意水準5%の両側検定では、$|Z| > 1.96$のとき$H_0$を棄却します。
今回の結果は$Z = 5.31$なので、$H_0$は棄却され、新しい血圧降下剤の有効性が示唆されました。