【n-1で割る理由】不偏分散と不偏性についてわかりやすく解説

こんにちは、青の統計学です。

今回は、推定量の大事な特徴「不偏分散」について解説いたします。

不偏分散とは、不偏性を持つ分散のことです。

まず、不偏性について詳しく理解する必要があります。

分散から理解したい方はこちらをご覧ください。

統計検定2級に挑戦したい方は、こちらのnoteもぜひご覧ください。(リポストすると割引になります!)

画像をクリックすると記事に飛びます。

Banner Ad

不偏性(unbiasedness)

「不偏性がある」とは、標本平均の期待値が母平均に一致することを指します。

数式で書くと以下のようになります。

$$E[\overline{X}]=\mu$$

例を挙げると、「池の魚全体の平均全長が、標本集団の全長の期待値と一致する」ということです。

我々が真に知りたいのは、母集団の性質であり、サンプルデータの性質ではありませんので、統計量がこの性質を持つことは望ましいです

普通の分散では、不偏性を持たないのか

まずは、母平均が\(E[X_i] = \mu\)で、母分散が\(Var(X_i) = \sigma^2\)である母集団からのランダム標本を考えてみましょう。

$$X_1…X_n \quad i.i.d〜(\mu,\sigma^2)$$


ちゃんと独立かつ同一の分布には従うものとします。

この標本から得られる値で、どう母分散\(\sigma^2\)を推定すれば良いでしょうか。
当然同じ分散である、標本分散を考えるはずです。

標本分散は\(s^2\)で表すとします。

$$s^2= \frac{1}{n} \sum{n}{i=1}(X_{i}-\overline{X})^2$$

偏差の二乗の和の平均を取ったものです。

これは、高校で習いましたね!

では、この標本分散はどの程度母分散\(\sigma^2\)に近いのかを期待値を取って調べてみましょう。
とはいえ、標本分散から期待値を取るのは面倒なので、ゴールから逆算して、母分散を分解してみましょう。

$$\sum_{i=1}^{n}(X_{I}-μ)^2=\sum_{i=1}^{n}((X_{I}-\overline{X})-(\overline{X}-\mu))^2$$

左辺は母分散を\(n\)倍したものです。書くのが面倒なのでnを外しただけなので書いても構いません。
ちょっとテクニカルですが、正の標本分散と負の標本分散を加えて、強制的に一つ目の括弧に標本分散のような形を作ります

$$\sum_{i=1}^{n}((X_{i}-\overline{X})-(\overline{X}-\mu))^2=\sum_{i=1}^{n}(X_{i}-\mu)^2-2\sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-\mu)+\sum_{i=1}^{n}(\overline{X}-\mu)^2$$

次はこのように括弧の中を普通に展開します。第一項に標本分散の\(n\)倍がきちんと現れたと思います。
同じように、第二項と第三項を見てみましょう。

$$-2 \sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-\mu)=-2n(\overline{X}-\mu)^2$$

第二項に関しては、\(\sum\)を外して和をとると右側と左側の括弧の中身は同じだということがわかります。

ただし\(X_i\)の和を\(\mu\)で表すときに\(n\)を括弧の外に出すことを忘れてはいけません。

$$\sum_{i=1}^{n}(\overline{X}-\mu)^2=n(\overline{X}-\mu)^2$$

第三項に関しては、そもそも括弧の中に\(i\)がないのでそのまま\(n\)倍すると\(\sum\)は外せます。
よって第二項と第三項はとても似た形になることがわかりました。

$$\sum_{i=1}^{n}(X_{i}-\overline{X})^2-2 \sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-\mu)+\sum_{i=1}^{n}(\overline{X}-μ)^2=\sum_{i=1}^{n}(X_{i}-\overline{X})-n(\overline{X}-\mu)^2$$

長くなりましたが、母分散は以上のように分解できることがわかりました。

期待値の算出

$$E[s^2]=n \sigma^2-E[n(\overline{X}-\mu)^2]$$

移行して期待値を取ってみました。先ほどの不偏性の式にはなりませんね。

どうも第二項が邪魔です。

では、どのような値が不偏性を満たすのでしょうか。

$$E[s^2]=n\sigma^2-E[n(\overline{X}-\mu)^2]$$

$$nE[(\overline{X}-\mu)^2]=n× \frac{1}{n}×\sigma^2$$

第二項は上のように分解できました。結局母分散ですね。よって、\((n-1)\sigma^2\)が右辺です。

なので、元々の式を\((n-1)\)で割ると右辺は\(\sigma^2\)だけになります。

これによって不偏性が満たされそうです。

$$E[\frac{s^2}{n-1}]=\sigma^2$$

よって、元の標本分散をn-1で割ったものが不偏性を持つ分散、すなわち不偏分散であるということになります

標本分散を\((n-1)\)で割っているのは、不偏性という望ましい性質を持つからです。

また、サンプル数\(n\)が十分大きければ\(n-1\)でも\(n\)でも値が大して変わらないので教科書によっては、そのまま\(n\)を使うこともあります。

バイアス(bias)について

不偏性がない場合は、「バイアス」というものが発生します。

推測統計の分野でよく出てきます。

$$bias(\hat{\theta})=E[\hat{\theta}]-\theta$$

このように、推測したパラメータ\(\theta\)の期待値と真のパラメータ\(\theta\)の差がバイアスと呼ばれるものになります。

不偏性がないとバイアスが0にはならず、「推定量が真の値を過大評価している」や「過小評価している」など、推測結果に負の影響を与える場合があります。

なので、計量経済学で登場する「OLS推定(最小二乗法とも言います)」や「固定効果推定量の漸近的性質」には、

単回帰重回帰問わず、不偏性が満たされるような仮定が置かれています。

固定効果については、以下のコンテンツをご覧くださいませ。

平均二乗誤差(mean squared error)

$$MSE(\theta;\hat{\theta})=Var(\hat{\theta})Bias((\theta)^2$$

平均二乗誤差とは、上のように推定量の分散とバイアスの二乗で表される値です。

主に機械学習で作成したモデル(回帰問題)の予測精度を測るために使われる評価指標の一つです。

バイアスとは、推測したパラメータ\(\theta\)の期待値と真のパラメータθの差で表されているため、不偏性を満たす場合は0となります。

つまり、不偏性を満たす場合に平均二乗誤差は推定量の分散と同値であると言えます。

以下のコンテンツでは、不偏性を持つ推定量にはバイアスがないことに加え、もっと詳しく平均二乗誤差と最良線形不偏推定量の説明を行なっております。

では、不偏分散と普通の分散をどう使い分けるのかというと、「対象の集団が母集団or標本」で使い分けます。

母集団全体の分散を調べたい時には、通常の分散ではなく、不偏分散を利用します

推定量が不偏性であるか、最尤であるかの議論

では、不偏性が何かを理解した上で以下のようなケースを考えてみましょう。

あたりが何個入っているかわからないくじを引くとします。

Aさん:100回引くと決めていて、そのうち1回だけあたりが出たので、1/100という確率を出した。

Bさん:あたりが出るまで続けると決めていて、たまたま100回目にあたりが出たので1/100という確率を出した。

この時に、両者は不偏性のある推定量を出しましたか?
また、それぞれは最尤法と言えますか?

AさんとBさんのシナリオをそれぞれ評価していきましょう。

Aさんのシナリオ

-不偏性を持つか-

この推定量は不偏性を持ちます。

長期的に多くのサンプルを取って平均値を計算すると、真のパラメータに収束するからですね。

-最尤法か-

最尤推定量は、観測データが最も尤もらしいとなるパラメータ値を求めるものです。

ここでのシナリオでは、当たる確率が \(p\)で、100回のくじ引きで1回だけ当たる確率は以下のように計算できます

$$L(p)=p(1-p)^{99}$$

この尤度関数を最大にするのは\(p=\frac{1}{100}\)です。

したがって、Aさんの推定は最尤推定と言えます。

Bさんのシナリオ

-不偏性を持つか-

この推定量は不偏でありません。

当たるまで引き続ける方法は、短期的には過小評価または過大評価される可能性があり、長期的には真のパラメータに収束しません。

ちなみに成功一回までにかかった試行回数を確率変数とする分布を幾何分布と呼びます。

-最尤法なのか-

先ほどのAさんのシナリオと同様に、当たる確率が \(p\)で、初めて当たるまでの試行数が100回である確率は以下のように計算できます。

$$L(p)=p(1-p)^{99}$$

この尤度関数を最大にするのは\(p=\frac{1}{100}\)です。

したがって、Bさんの推定は不偏性はないが、最尤推定と言えます。

補足:不変性について

ここでは、不偏性ではなく不変性についてご紹介します。

不変性とは、最尤推定量の性質の一つです。

最尤推定量とは、確率密度の積である尤度関数を最大にするパラメータ\(\theta\)を推定量とします。

最尤推定量には、

・漸近正規性

・一致性

などの特徴もあります。

そして不変性とは以下のような性質です。

$$g(\theta)^{ML}=g(\theta^{ML})$$

このように、最尤推定量のパラメータを関数に代入した値がそのまま、関数\(g(\theta)\)自体の最尤推定量になるという性質です。

尤度や最尤推定量、尤度関数、そして尤度比検定については、以下のコンテンツをご覧ください。

FOLLOW ME !