【n-1で割る理由】不偏分散と不偏性についてわかりやすく解説
不偏分散とは、不偏性を持つ分散のことです。
まず、不偏性について詳しく理解する必要があります。
分散から理解したい方はこちらをご覧ください。
不偏性(unbiasedness)
「不偏性がある」とは、標本平均の期待値が母平均に一致することを指します。
数式で書くと以下のようになります。
$$E[\overline{X}]=μ$$
例を挙げると、「池の魚全体の平均全長が、標本集団の全長の期待値と一致する」ということです。
我々が真に知りたいのは、母集団の性質であり、サンプルデータの性質ではありませんので、統計量がこの性質を持つことは望ましいです。
普通の分散では、不偏性を持たないのか
まずは、母平均がE[Xi] = µで、母分散がVar(Xi) = σ^2である母集団からのランダム標本を考えてみましょう。
$$X1 ‥Xn ,i.i.d〜(µ,σ^2)$$
ちゃんと独立かつ同一の分布には従うものとします。
この標本から得られる値で、どう母分散\(σ^2\)を推定すれば良いでしょうか。
当然同じ分散である、標本分散を考えるはずです。標本分散はS^2で表すとします。
$$S^2= \frac{1}{n} \sum{n}{i=1}(X_{i}-\overline{X})^2$$
偏差の二乗の和の平均を取ったものです。これは、高校で習いました。
では、この標本分散はどの程度母分散σ^2に近いのかを期待値を取って調べてみましょう。
とはいえ、標本分散から期待値を取るのは面倒なので、ゴールから逆算して、母分散を分解してみましょう。
$$\sum_{i=1}^{n}(X_{I}-μ)^2=\sum_{i=1}^{n}((X_{I}-\overline{X})-(\overline{X}-μ))^2$$
左辺は母分散をn倍したものです。書くのが面倒なのでnを外しただけなので書いても構いません。
ちょっとテクニカルですが、正の標本分散と負の標本分散を加えて、強制的に一つ目の括弧に標本分散のような形を作ります。
$$\sum_{i=1}^{n}((X_{I}-\overline{X})-(\overline{X}-μ))^2=\sum_{i=1}^{n}(X_{I}-μ)^2-2\sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-μ)+\sum_{i=1}^{n}(\overline{X}-μ)^2$$
次はこのように括弧の中を普通に展開します。第一項に標本分散のn倍がきちんと現れたと思います。
同じように、第二項と第三項を見てみましょう。
$$-2 \sum_{i=1}^{n}(X_{I}-\overline{X})(\overline{X}-μ)=-2n(\overline{X}-μ)^2$$
第二項に関しては、Σを外して和をとると右側と左側の括弧の中身は同じだということがわかります。ただしXiの和をµで表すときにnを括弧の外に出すことを忘れてはいけません。
$$\sum_{i=1}^{n}(\overline{X}-μ)^2=n(\overline{X}-μ)^2$$
第三項に関しては、そもそも括弧の中にiがないのでそのままn倍するとΣは外せます。
よって第二項と第三項はとても似た形になることがわかりました。
$$\sum_{i=1}^{n}(X_{I}-\overline{X})^2-2 \sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-μ)+\sum_{i=1}^{n}(\overline{X}-μ)^2=\sum_{i=1}^{n}(X_{i}-\overline{X})-n(\overline{X}-μ)^2$$
長くなりましたが、母分散は以上のように分解できることがわかりました。
期待値の算出
$$E[S^2]=nσ^2-E[n(\overline{X}-μ)^2]$$
移行して期待値を取ってみました。先ほどの不偏性の式にはなりませんね。どうも第二項が邪魔です。
では、どのような値が不偏性を満たすのでしょうか。
$$E[S^2]=nσ^2-E[n(\overline{X}-μ)^2]$$
$$nE[(\overline{X}-μ)^2]=n× \frac{1}{n}×σ^2$$
第二項は上のように分解できました。結局母分散ですね。よって、(n-1)σ^2が右辺です。
なので、元々の式を(n-1)で割ると右辺はσ^2だけになります。これによって不偏性が満たされそうです。
$$E[\frac{S^2}{n-1}]=σ^2$$
よって、元の標本分散をn-1で割ったものが不偏性を持つ分散、すなわち不偏分散であるということになります。
標本分散を(n-1)で割っているのは、不偏性という望ましい性質を持つからです。また、サンプル数nが十分大きければn-1でもnでも値が大して変わらないので教科書によっては、そのままnを使うこともあります。
バイアス(bias)について
不偏性がない場合は、「バイアス」というものが発生します。
推測統計の分野でよく出てきます。
$$bias(\hat{θ})=E[\hat{θ}]-θ$$
このように、推測したパラメータθの期待値と真のパラメータθの差がバイアスと呼ばれるものになります。
不偏性がないとバイアスが0にはならず、「推定量が真の値を過大評価している」や「過小評価している」など、推測結果に負の影響を与える場合があります。
なので、計量経済学で登場する「OLS推定(最小二乗法とも言います)」や「固定効果推定量の漸近的性質」には、
単回帰重回帰問わず、不偏性が満たされるような仮定が置かれています。
固定効果については、以下のコンテンツをご覧くださいませ。
【例題つき】固定効果推定と固定効果モデルについて解説|ランダム効果も添えて
平均二乗誤差(mean squared error)
$$MSE(θ;\hat{θ})=Var(\hat{θ})BIas(θ)^2$$
平均二乗誤差とは、上のように推定量の分散とバイアスの二乗で表される値です。
主に機械学習で作成したモデル(回帰問題)の予測精度を測るために使われる評価指標の一つです。
バイアスとは、推測したパラメータθの期待値と真のパラメータθの差で表されているため、不偏性を満たす場合は0となります。
つまり、不偏性を満たす場合に平均二乗誤差は推定量の分散と同値であると言えます。
以下のコンテンツでは、不偏性を持つ推定量にはバイアスがないことに加え、もっと詳しく平均二乗誤差と最良線形不偏推定量の説明を行なっております。
【MSEを最小化】ガウス・マルコフの定理と最良線形不偏推定量について
では、不偏分散と普通の分散をどう使い分けるのかというと、「対象の集団が母集団or標本」で使い分けます。
母集団全体の分散を調べたい時には、通常の分散ではなく、不偏分散を利用します。
補足:不変性について
ここでは、不偏性ではなく不変性についてご紹介します。
不変性とは、最尤推定量の性質の一つです。
最尤推定量とは、確率密度の積である尤度関数を最大にするパラメータθを推定量とします。
最尤推定量には、
・漸近正規性
・一致性
などの特徴もあります。
そして不変性とは以下のような性質です。
$$g(θ)^{ML}=g(θ^{ML})$$
このように、最尤推定量のパラメータを関数に代入した値がそのまま、関数g(θ)自体の最尤推定量になるという性質です。
尤度や最尤推定量、尤度関数、そして尤度比検定については、以下のコンテンツをご覧ください。
【python】尤度比検定で統計モデルの比較をしよう|統計的仮説検定