層化抽出法の比例配分とネイマン配分をわかりやすく解説【統計検定準一級】
層化抽出法
層化抽出法は、母集団を互いに排反な部分集合(層)に分割し、各層から独立に標本を抽出する方法です。
統計検定二級では、調査手法の一つとして他の方法と比較できているかを問われていましたが、準一級では具体例を通してサンプルを分割して分散が小さい手法を探す〜といった少し踏み込んだ出題がされます。
まずは、そもそもの層化抽出法をするモチベーションについて理解しましょう。
推定精度の向上
母集団が異質な要素から構成されている場合、単純無作為抽出法では偏りが生じる可能性があります。層化によって、母集団の異質性を考慮し、より代表性の高い標本を得られます。
部分集団の分析
研究者や政策立案者が特定の部分集団(例:年齢層、地域、所得階級など)に関する詳細な情報を得たい場合があります。層化抽出法は、これらの部分集団を層として定義することで、各集団に関する精度の高い推定を可能にします
層化抽出法を採用する際の重要な問題は、全体の標本サイズをどのように各層に配分するかということです。
この問題意識から、様々な標本配分法が開発されました。
そのほか有限母集団修正など、層化抽出に関わる記事はこちらで紹介しております。
比例配分法
最も単純で直感的な方法として、まず比例配分法が考案されました。
各層の大きさに比例して標本を配分するこの方法は、実装が容易で、層の代表性を確保する基本的なアプローチとして広く使用されています。
$$n_h = n \cdot \frac{N_h}{N}$$
- $n_h$ は第h層の標本サイズ
- $n$ は全体の標本サイズ
- $N_h$ は第h層の母集団サイズ
- $N$ は全体の母集団サイズ
この方法の利点は、実施が簡単で直感的に理解しやすいことです。
ただし、層内の分散を考慮していないため、層間で分散が大きく異なる場合には必ずしも最適ではありません。
ネイマン配分法
さて、上記の比例配分法の限界(層内の分散を考慮していない)を克服するために、ネイマン配分法が提案されました。
ネイマン配分法の基本的なアイデアは、各層の分散も考慮に入れることで、全体の推定量の分散を最小化することです。
ネイマン配分法の数学的表現
$$n_h = n \cdot \frac{N_h S_h}{\sum_{i=1}^L N_i S_i}$$
- ${n_h}$ は第h層の標本サイズ
- ${n}$ は全体の標本サイズ
- ${N_h}$ は第h層の母集団サイズ
- ${S_h}$ は第h層の母標準偏差
- ${L}$ は層の総数
この方法の理論的根拠は、層化抽出法における推定量の分散の最小化にあります
$$V(\bar{y}{st}) = \sum{h=1}^L (\frac{N_h}{N})^2 \cdot \frac{S_h^2}{n_h} \cdot (1 – \frac{n_h}{N_h})$$
ネイマン配分法は、この分散を最小化する${n_h}$を導出しています。
ネイマン配分法は、層内の分散を考慮するため、一般的に比例配分法よりも精度の高い推定が可能です。 また、ネイマン配分法は各層の標準偏差に関する事前情報が必要でして、これが利用できない場合、比例配分法が選択されることがあります。
例題|ネイマン配分
ある大学の学生の学習時間を調査するために、層化抽出法を用いることにしました。
大学全体で1000人の学生がおり、これを3つの学部(理系、文系、芸術系)に層化しています。
各学部の学生数と予備調査で得られた1日の学習時間の標準偏差は以下の通りです
学部 | 人数 | 標準偏差 |
理系学 | 400人 | 2.5時間 |
文系 | 450人 | 1.8時間 |
芸術系 | 150人 | 3.2時間 |
全体の標本サイズを100人とする場合、ネイマン配分法を用いて各学部から何人ずつ標本を抽出すべきでしょうか。
また、比例配分法との違いを比較してみましょう。
モチベーションを再度おさらいしましょう。そもそも学生たちをごちゃ混ぜにして、サンプリングをすると、理系学部や文系学部のサンプルが多くなるのは想像がつきそうです。加えて、知りたい学習時間にも各グループでばらつきが大きいと、尚更調査結果が偏ってしまいますね。層化抽出の出番です。
解答
まず、ネイマン配分法の公式を適用します
$$n_h = n \cdot \frac{N_h S_h}{\sum_{i=1}^L N_i S_i}$$
- ${n}$ は全体の標本サイズ(100人)
- ${N_h}$ は各層の母集団サイズ
- ${S_h}$ は各層の標準偏差
①分母の計算
$$\sum_{i=1}^L N_i S_i = (400 \times 2.5) + (450 \times 1.8) + (150 \times 3.2) = 1000 + 810 + 480 = 2290$$
②各学部の標本サイズの計算
- 理系学部: ${n_1 = 100 \cdot \frac{400 \times 2.5}{2290} \approx 43.67 \approx 44}$人
- 文系学部: ${n_2 = 100 \cdot \frac{450 \times 1.8}{2290} \approx 35.37 \approx 35}$人
- 芸術系学部: ${n_3 = 100 \cdot \frac{150 \times 3.2}{2290} \approx 20.96 \approx 21}$人
ネイマン配分法による結果:理系44人、文系35人、芸術系21人
比較のため、比例配分法も計算してみましょう
- 理系学部:${100 \times \frac{400}{1000} = 40}$人
- 文系学部:${100 \times \frac{450}{1000} = 45}$人
- 芸術系学部:${100 \times \frac{150}{1000} = 15}$人
標本サイズの違い
- ネイマン配分法:理系44人、文系35人、芸術系21人
- 比例配分法:理系40人、文系45人、芸術系15人
ネイマン配分法は各層の標準偏差を考慮しているため、標準偏差の大きい芸術系学部により多くの標本を割り当てています。一方、比例配分法は単純に学生数の比率のみで配分していますね、