母平均の区間推定と検定 – 正規分布と標準誤差の概念
こんにちは、青の統計学です!
今回は、母平均の区間推定と検定 について解説します
統計検定2級で頻出の分野ですので、分散が未知、既知の場合も含めてぜひ押さえて欲しいです。
母比率の検定についてはこちらをどうぞ
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!
母平均の区間推定と検定
まず結論からですが、母集団平均 $\mu$ の点推定値として、標本平均 $\bar{X}$ が用いられます。
これはある程度イメージがつくと思いますが、当然ある程度の幅を持って推定したい場合がほとんどなので信頼区間を用います。
この時に区間推定が必要です。
母平均の区間推定|母分散の既知と未知における分岐
ただ、信頼区間は推定したい母集団の分散、母分散がわかっているかどうかで幅が異なります。
イメージ的には、わかっていれば、当然信頼区間の幅は狭くでき、わからない場合はちょっと広がります
母集団分散 $\sigma^2$ が既知の場合、標本平均の標準誤差は $\sigma/\sqrt{n}$ となります。
ただし、$n$ は標本サイズです。
\(100(1-\alpha)\%\) の信頼係数における信頼区間は次式で与えられます。
$$\bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$$
ここで、$z_{\alpha/2}$ は標準正規分布の上側 $100\alpha/2\%$ 点です。
一方、母集団分散が未知の場合、標本分散 $S^2$ を用いて標準誤差を推定する必要があります。
このとき、標本平均の標準誤差は $S/\sqrt{n}$ となります。
母平均の区間推定では、標本平均と標準誤差から構成される信頼区間を求めます。
標本分散から推定された標準誤差を用いて、自由度 $n-1$ の \(t\) 分布を使用します。
先ほどと使う分布が違いますね。(詳しくは後述します)
\(100(1-\alpha)\%\) の信頼係数における信頼区間は次式で表されます。
$$\bar{X} \pm t_{\alpha/2, n-1} \frac{S}{\sqrt{n}}$$
ここで、$t_{\alpha/2, n-1}$ は自由度 $n-1$ の \(t\) 分布の上側 $100\alpha/2\%$ 点です。
母平均の検定
母平均の検定では、帰無仮説 $H_0: \mu = \mu_0$ と対立仮説 $H_1: \mu \neq \mu_0$ ($H_1: \mu > \mu_0$ または $H_1: \mu < \mu_0$) を設定し、標本データから検定統計量を計算します。
母集団分散が既知の場合、検定統計量は次式で与えられます。
$$Z = \frac{\bar{X} – \mu_0}{\sigma/\sqrt{n}}$$
この検定統計量の値が、有意水準 $\alpha$ での棄却域に入れば、帰無仮説を棄却します。
一方、母集団分散が未知の場合、検定統計量は次式で表されます。
$$T = \frac{\bar{X} – \mu_0}{S/\sqrt{n}}$$
この検定統計量の値が、有意水準 $\alpha$ での自由度 $n-1$ の \(t\) 分布の棄却域に入れば、帰無仮説を棄却します。
補足|なぜ母分散が既知かどうかで分布が変わるのか
さて、母平均の検定について、母分散が既知か未知かによって、検定統計量が従う分布が変わるのはなぜ?めんどくさい!と感じた方、いい視点です。
これは、推定の不確実性に関連しているのです。
検定統計量を再掲します。
母分散 ${\sigma^2}$が既知の場合
$${Z = \frac{\bar{X} – \mu_0}{\sigma / \sqrt{n}}\sim N(0, 1)}$$
母分散 ${\sigma^2}$が未知の場合
推定には母分散を使える場合よりも不確実性が伴います。
検定統計量 ${T}$は以下のようになります。
帰無仮説の下でt分布に従います。
$${T = \frac{\bar{X} – \mu_0}{S / \sqrt{n}}\sim t_{n-1}}$$
t分布は、正規分布と比べて裾野が重く、サンプルサイズが小さいほどその傾向が強くなります。
これが、母分散の推定に伴う不確実性を反映できる理由ですね。
サンプルサイズが大きくなるにつれて、t分布は標準正規分布に近づきます。
$${\lim_{n \to \infty} t_{n-1} = N(0, 1)}$$
直感的には、母分散が未知の場合、標本分散による推定の不確実性を考慮するために、検定統計量の分布がt分布になると理解できます。
これにより、第1種の過誤(帰無仮説が真であるにもかかわらず棄却する)の確率を制御することができます。
で一方、母分散が既知の場合、この不確実性がないため、検定統計量は標準正規分布に従います。
具体例|製品の重量について
最後に具体例を用いておさらいしましょう。
母平均の区間推定
まず、母集団分散 $\sigma^2$ が既知の場合を考えましょう。
標本平均 $\bar{X}$ の標準誤差は $\sigma/\sqrt{n}$ となり、標準正規分布 $N(0, 1)$ を用いて区間推定や検定を行うことができます。
例えば、ある製造業者が生産する製品の平均重量 $\mu$ を推定したい場合を考えます。
母集団の標準偏差 $\sigma$ が既知で、200個の製品からなる標本の平均重量 $\bar{X} = 50\text{g}$ で、標準偏差 $\sigma = 2\text{g}$ であったとします。
このとき、95%の信頼係数における母平均の信頼区間は次のように計算されます。
$\bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}} = 50 \pm 1.96 \frac{2}{\sqrt{200}} = 50 \pm 0.28$
つまり、95%の確率で、母平均重量 $\mu$ は49.72gから50.28gの範囲に入ることがわかります。
一方、母集団分散が未知の場合は、標本分散 $S^2$ から標準誤差を推定し、自由度 $n-1$ の \(t\) 分布を用います。
例えば、上記の例において標本分散 $S^2 = 4$ だったとすると、95%の信頼係数における母平均の信頼区間は次のようになります。
$\bar{X} \pm t_{\alpha/2, n-1} \frac{S}{\sqrt{n}} = 50 \pm 1.972 \frac{2}{\sqrt{200}} = 50 \pm 0.28$
この場合も、母平均重量の95%信頼区間は(49.72, 50.28)となり、母集団分散が既知の場合と同じ結果が得られます。
母平均の検定
次に、母平均の検定について考えましょう。
帰無仮説 $H_0: \mu = \mu_0$ に対し、製品の平均重量が規格値 $\mu_0 = 50\text{g}$ から有意に逸脱しているかどうかを調べたいとします。
母集団分散が既知の場合、検定統計量は次のように計算されます。
$z = \frac{\bar{X} – \mu_0}{\sigma/\sqrt{n}} = \frac{50 – 50}{2/\sqrt{200}} = 0$
この値は標準正規分布の棄却域に入らないため、有意水準 $\alpha = 0.05$ で帰無仮説は棄却されません。
つまり、製品の平均重量が規格値から有意に逸脱しているという証拠はありません。
一方、母集団分散が未知の場合、検定統計量は次のように計算されます。
$t = \frac{\bar{X} – \mu_0}{S/\sqrt{n}} = \frac{50 – 50}{2/\sqrt{200}} = 0$
この値は自由度199の \(t\) 分布の棄却域に入らないため、やはり帰無仮説は棄却されません。
有意かどうかなどの議論を深く学びたい方はこちらもどうぞ
まとめ
– 母平均 $\mu$ の点推定値として標本平均 $\bar{X}$
– 母集団分散 $\sigma^2$ が既知の場合、標本平均の標準誤差は $\sigma/\sqrt{n}$ となる。
一方、母集団分散が未知の場合は、標本分散 $S^2$ から標準誤差 $S/\sqrt{n}$ を推定します。
– 母平均の区間推定では、標準誤差を用いて以下の信頼区間を求めます。
– 母集団分散が既知の場合: $$\bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$$
– 母集団分散が未知の場合: $$\bar{X} \pm t_{\alpha/2, n-1} \frac{S}{\sqrt{n}}$$
– 母平均の検定では、帰無仮説 $H_0: \mu = \mu_0$ と対立仮説 $H_1: \mu \neq \mu_0$ ($H_1: \mu > \mu_0$ または $H_1: \mu < \mu_0$) を設定し、以下の検定統計量を計算します。
– 母集団分散が既知の場合: $$Z = \frac{\bar{X} – \mu_0}{\sigma/\sqrt{n}}$$
– 母集団分散が未知の場合: $$T = \frac{\bar{X} – \mu_0}{S/\sqrt{n}}$$