母分散の区間推定と検定 – 標本からの母集団の分散推定手法

こんにちは、青の統計学です!

今回は、母分散の区間推定と検定 について解説します。

数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。

母平均については、こちらをどうぞ

青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!

【完全版】統計検定2級チートシート
【最短合格】統計検定2級の攻略本|4万字

母分散の区間推定と検定

母分散の区間推定と検定は、標本から母集団の分散を推測し、所与の仮説に対する判断を下す問題に使えます。

母分散というのは、知りたい母集団の分散であり、基本母集団から標本を取ってきて標本分散しかわからないので、この推定が必要になります、全数調査ならこんなのしなくていいですね。

分散はこちらをどうぞ!!

では、早速みていきましょう。

母集団の分散$\sigma^2$を推定する際、標本分散$S^2$を使用します。

標本分散は不偏推定量ではないため、自由度$n-1$のカイ2乗分布に従う確率変数$\frac{(n-1)S^2}{\sigma^2}$を用いて、以下の区間推定を行います。

$$\Biggl(\frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}}\Biggr)$$

ここで、$\chi^2_{\alpha/2, n-1}$および$\chi^2_{1-\alpha/2, n-1}$は、自由度$n-1$のカイ2乗分布の下側$\alpha/2$点および上側$1-\alpha/2$点です。

不偏推定量について理解が怪しい方は、こちらをご覧ください。

この区間の両端は確率変数ですが、標本分散$S^2$を代入することで、母分散$\sigma^2$の100(1-$\alpha$)%確率区間を得ることができます。

$H_0: \sigma^2 = \sigma_0^2$という帰無仮説の下で、標本分散$S^2$からの検定統計量は以下の通りです。

$$\frac{(n-1)S^2}{\sigma_0^2}$$

この確率変数は自由度$n-1$のカイ2乗分布に従うため、有意水準$\alpha$における棄却域は以下のようになります。

$$\Biggl(0, \chi^2_{\alpha/2, n-1}\Biggr) \cup \Biggl(\chi^2_{1-\alpha/2, n-1}, \infty\Biggr)$$

検定統計量の値がこの領域に入れば、帰無仮説を棄却します。

なぜカイ二乗分布????

当然のように、この統計量はカイ二乗分布に従います〜と申し上げたのですが、なぜでしょうか?

結論から言うと理由は大きく二つで、

正規分布からの標本の二乗和:正規分布に従う確率変数の二乗和はカイ二乗分布に従う

分散の性質:分散は本質的に二乗の概念(平均からの偏差の二乗の平均)であり、カイ二乗分布はこの性質を自然に捉えられる

ですね!

もう少し詳しくみていきます。

自由度$\nu$のカイ2乗分布は、$\nu$個の標準正規分布の二乗和の分布でしたね。

つまり、$X_1, X_2, \ldots, X_\nu$を標準正規分散数とすると、

$$\sum_{i=1}^\nu X_i^2 \sim \chi^2_\nu$$

となります。

この性質を利用して、正規分布$\mathcal{N}(\mu, \sigma^2)$から得られる標本$X_1, X_2, \ldots, X_n$について

$$\sum_{i=1}^n \Biggl(\frac{X_i – \bar{X}}{\sigma}\Biggr)^2 \sim \chi^2_{n-1}$$

が成り立ちます。

ここから標本分散$S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$について、

$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$$

が導出されます。

関連記事はこちら↓

具体例

上で扱った理論的背景を理解するために、いくつかの具体例を用いて説明していきます。

まず、母分散の区間推定について考えましょう。

簡単な例として、ある工場で生産される製品の重さのばらつきを調べたいとします。

工場から無作為に$n=20$個の製品をサンプリングし、その重さのデータ$(x_1, x_2, \ldots, x_{20})$を得たとします。

これらのデータから標本分散$S^2$を計算すると、$S^2 = 2.5$となったとしましょう。

この時、母分散$\sigma^2$の95%信頼区間は以下のように求められます。

\begin{align*}
\Biggl(\frac{(n-1)S^2}{\chi^2_{0.975, 19}}, \frac{(n-1)S^2}{\chi^2_{0.025, 19}}\Biggr) &= \Biggl(\frac{19 \times 2.5}{30.14}, \frac{19 \times 2.5}{8.91}\Biggr) \\
&= (1.57, 5.32)
\end{align*}

つまり、母分散$\sigma^2$が1.57から5.32の範囲に95%の確率で含まれることがわかります。

この区間推定の幅は、標本サイズ$n$が大きくなれば狭くなり、推定の精度が上がります。

一方、母分散の検定では、ある仮説された値$\sigma_0^2$のもとで、標本分散との一致性を調べます。

例えば、上記の製品の重さのばらつきについて、$\sigma_0^2 = 3$が適切な値であるかどうかを検定したいとしましょう。

この時の検定統計量は次のようになります。

$$\frac{(n-1)S^2}{\sigma_0^2} = \frac{19 \times 2.5}{3} = 15.83$$

有意水準$\alpha=0.05$として、棄却域は$\chi^2_{0.025, 19} = 30.14$より大きい値、または$\chi^2_{0.975, 19} = 8.91$より小さい値となります。

検定統計量15.83はこの領域に含まれないため、帰無仮説$H_0: \sigma^2 = 3$を棄却することはできません。

つまり、標本分散から$\sigma^2 = 3$を否定する十分な根拠はないことになります。

FOLLOW ME !