【統計検定】有限母集団修正についてわかりやすく解説|無限母集団との違い
有限母集団修正(Finite Population Correction, FPC)
有限母集団修正とは、有限母集団からの標本抽出に関連するバイアスを補正するための手法です。
まず、モチベーションから確認していきましょう。
通常、統計的な推定や分散の計算は、母集団が無限に大きいという仮定のもとに行われます。しかし、母集団が有限であり、そのサイズがサンプルサイズと比較してそれほど大きくない場合、推定量の分散は小さくなります。これを補正するために有限母集団修正を使います
無限母集団とサンプリング
では、まず無限母集団の場合から見てみましょう。
無限母集団とは、母集団のサイズが非常に大きく、サンプルをいくら取っても母集団の構成にはほとんど影響を与えない場合を指します。この仮定の下では、標本平均の分散は \(n\) に比例して減少し、母集団全体の情報が非常に効率的に捉えられることが示されています。
無限母集団からのサンプリングを考えると、標本平均の分散は次のように表現されます
$$\mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n}$$
$\sigma^2$ は母集団分散、$n$ は標本サイズです。
サンプルサイズ が増加するにつれて($n \to \infty$)、標本平均の分散が減少していくことを示しています。つまり、サンプルが大きくなるほど、標本平均は母集団平均に近づくことが期待できる、ということです。
標本サイズ n が小さいとき
少ないサンプルで母集団の平均を推定しようとすると、推定の誤差が大きくなる可能性が高いです。そのため、標本平均の分散は大きくなります。
標本サイズ nが大きくなると
より多くのデータを使用して推定することになるので、標本平均の精度が向上し、標本平均の分散は小さくなります。
割と当たり前の話ですね。有限母集団の場合はどうでしょうか?
有限母集団の場合
しかし、実際の問題では通常、母集団が有限であることが多いです。有限母集団からのサンプリングにおいては、上記の分散は正しくありません。
有限の母集団から大きなサンプルを取ると、サンプルが母集団の特徴をかなり捉えてしまうため、標本平均の分散がさらに小さくなる傾向があります。これは、サンプルが母集団全体を反映しているため、推定のブレが少なくなるからです。このような状況を補正するために、有限母集団修正が導入されます。
有限の母集団サイズ $N$ から標本サイズ $n$ を抽出する場合、標本平均の分散は次のように修正されます
$$\mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n} \left(1 – \frac{n}{N}\right)$$
ここで、補正係数 $\left(1 – \frac{n}{N}\right)$ が有限母集団からの抽出におけるバイアスを調整します。
つまり、サンプルサイズが母集団に対して十分に大きい場合には、標本平均の分散がより小さくなることが反映されます。
よくみていただきたいのですが、この修正係数は母集団が無限に近いとき(\(N \to \infty\))には 1 に近づき、無限母集団の式に戻ります。
有限母集団修正を適用するかどうかの基準
実際の調査やサンプリングで有限母集団修正を適用するかどうかを判断する際には、サンプルサイズが母集団に対して十分に小さいかどうかが基準となります。
一般的に、サンプルサイズ n が母集団サイズ N に対して \(5%\) を超える場合は、有限母集団修正を適用することが推奨されます。
例えば、母集団サイズ \(N=1,000\)の場合、サンプルサイズ \(n=50\) であれば修正は不要ですが、サンプルサイズが \(n = 200\)以上の場合には修正を適用する方が正確な推定が得られます。