母分散の区間推定と検定 – 標本からの母集団の分散推定手法
こんにちは、青の統計学です!
今回は、母分散の区間推定と検定 について解説します。
数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。
母平均については、こちらをどうぞ
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!
母分散の区間推定と検定
母分散の区間推定と検定は、標本から母集団の分散を推測し、所与の仮説に対する判断を下す問題に使えます。
母分散というのは、知りたい母集団の分散であり、基本母集団から標本を取ってきて標本分散しかわからないので、この推定が必要になります、全数調査ならこんなのしなくていいですね。
分散はこちらをどうぞ!!
では、早速みていきましょう。
母集団の分散$\sigma^2$を推定する際、標本分散$S^2$を使用します。
標本分散は不偏推定量ではないため、自由度$n-1$のカイ2乗分布に従う確率変数$\frac{(n-1)S^2}{\sigma^2}$を用いて、以下の区間推定を行います。
$$\Biggl(\frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}}\Biggr)$$
ここで、$\chi^2_{\alpha/2, n-1}$および$\chi^2_{1-\alpha/2, n-1}$は、自由度$n-1$のカイ2乗分布の下側$\alpha/2$点および上側$1-\alpha/2$点です。
不偏推定量について理解が怪しい方は、こちらをご覧ください。
この区間の両端は確率変数ですが、標本分散$S^2$を代入することで、母分散$\sigma^2$の100(1-$\alpha$)%確率区間を得ることができます。
$H_0: \sigma^2 = \sigma_0^2$という帰無仮説の下で、標本分散$S^2$からの検定統計量は以下の通りです。
$$\frac{(n-1)S^2}{\sigma_0^2}$$
この確率変数は自由度$n-1$のカイ2乗分布に従うため、有意水準$\alpha$における棄却域は以下のようになります。
$$\Biggl(0, \chi^2_{\alpha/2, n-1}\Biggr) \cup \Biggl(\chi^2_{1-\alpha/2, n-1}, \infty\Biggr)$$
検定統計量の値がこの領域に入れば、帰無仮説を棄却します。
なぜカイ二乗分布????
当然のように、この統計量はカイ二乗分布に従います〜と申し上げたのですが、なぜでしょうか?
結論から言うと理由は大きく二つで、
①正規分布からの標本の二乗和:正規分布に従う確率変数の二乗和はカイ二乗分布に従う
②分散の性質:分散は本質的に二乗の概念(平均からの偏差の二乗の平均)であり、カイ二乗分布はこの性質を自然に捉えられる
ですね!
もう少し詳しくみていきます。
自由度$\nu$のカイ2乗分布は、$\nu$個の標準正規分布の二乗和の分布でしたね。
つまり、$X_1, X_2, \ldots, X_\nu$を標準正規分散数とすると、
$$\sum_{i=1}^\nu X_i^2 \sim \chi^2_\nu$$
となります。
この性質を利用して、正規分布$\mathcal{N}(\mu, \sigma^2)$から得られる標本$X_1, X_2, \ldots, X_n$について
$$\sum_{i=1}^n \Biggl(\frac{X_i – \bar{X}}{\sigma}\Biggr)^2 \sim \chi^2_{n-1}$$
が成り立ちます。
ここから標本分散$S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$について、
$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$$
が導出されます。
関連記事はこちら↓
具体例
上で扱った理論的背景を理解するために、いくつかの具体例を用いて説明していきます。
まず、母分散の区間推定について考えましょう。
簡単な例として、ある工場で生産される製品の重さのばらつきを調べたいとします。
工場から無作為に$n=20$個の製品をサンプリングし、その重さのデータ$(x_1, x_2, \ldots, x_{20})$を得たとします。
これらのデータから標本分散$S^2$を計算すると、$S^2 = 2.5$となったとしましょう。
この時、母分散$\sigma^2$の95%信頼区間は以下のように求められます。
\begin{align*}
\Biggl(\frac{(n-1)S^2}{\chi^2_{0.975, 19}}, \frac{(n-1)S^2}{\chi^2_{0.025, 19}}\Biggr) &= \Biggl(\frac{19 \times 2.5}{30.14}, \frac{19 \times 2.5}{8.91}\Biggr) \\
&= (1.57, 5.32)
\end{align*}
つまり、母分散$\sigma^2$が1.57から5.32の範囲に95%の確率で含まれることがわかります。
この区間推定の幅は、標本サイズ$n$が大きくなれば狭くなり、推定の精度が上がります。
一方、母分散の検定では、ある仮説された値$\sigma_0^2$のもとで、標本分散との一致性を調べます。
例えば、上記の製品の重さのばらつきについて、$\sigma_0^2 = 3$が適切な値であるかどうかを検定したいとしましょう。
この時の検定統計量は次のようになります。
$$\frac{(n-1)S^2}{\sigma_0^2} = \frac{19 \times 2.5}{3} = 15.83$$
有意水準$\alpha=0.05$として、棄却域は$\chi^2_{0.025, 19} = 30.14$より大きい値、または$\chi^2_{0.975, 19} = 8.91$より小さい値となります。
検定統計量15.83はこの領域に含まれないため、帰無仮説$H_0: \sigma^2 = 3$を棄却することはできません。
つまり、標本分散から$\sigma^2 = 3$を否定する十分な根拠はないことになります。