不偏性と不偏分散についてわかりやすく解説
不偏性(unbiasedness)
不偏分散とは、分散の中でも不偏性を持つ分散のことです。
まずは、不偏性から理解していきましょう。
「不偏性がある」とは、標本平均の期待値が母平均に一致することを指します。
数式で書くと以下のようになります。
$$E[\overline{X}]=\mu$$
例を挙げると、「池の魚全体(これが母集団)の平均全長が、標本集団の全長の期待値と一致する」ということです。
我々が真に知りたいのは、母集団の性質であり、サンプルデータの性質ではありませんので、統計量がこの性質を持つことは望ましいです。
不偏性
推定量 $\hat{\theta}$ が母数 $\theta$ の不偏推定量であるとは、その期待値が母数と等しいことを意味します
$E[\hat{\theta}] = \theta$
バイアス(bias)について
不偏性の議論においては、必ず「バイアス」という概念を理解してほしいです。
まずは、以下の式をご覧ください。
$$bias(\hat{\theta})=E[\hat{\theta}]-\theta$$
このように、推測したパラメータ\(\theta\)の期待値と真のパラメータ\(\theta\)の差がバイアスと呼ばれるものになります。
不偏性がないとバイアスが0にはならず、「推定量が真の値を過大評価している」や「過小評価している」など、推測結果に負の影響を与える場合があります。
バイアスの正負について
正のバイアス: $$E[\hat{\theta}] > \theta$$
- 推定量が真の値を系統的に過大評価
- 例:標本分散の分母を $n$ とした場合
負のバイアス: $$E[\hat{\theta}] < \theta$$
- 推定量が真の値を系統的に過小評価
- 例:打ち切りデータを用いた平均寿命の推定
なので、計量経済学で登場する「OLS推定(最小二乗法とも言います)」や「固定効果推定量の漸近的性質」には、
単回帰重回帰問わず、不偏性が満たされるような仮定が置かれています。
固定効果については、以下のコンテンツをご覧くださいませ。
ただ、漸近不偏性という標本サイズ $n$が大きくなるにつれてバイアスが0に近づく性質があるため、バイアスの影響を取り除くためには、サンプルサイズを増やすことが望ましいとされています。
$$\lim_{n \to \infty} bias(\hat{\theta}_n)=0$$
各推定量のバイアスの極限を考えるとゼロに近づくとわかるはずです。
平均二乗誤差(mean squared error)
平均二乗誤差とは、上のように推定量の分散とバイアスの二乗で表される値です。
$${MSE = Var(\hat{y}) + [Bias(\hat{y},y)]^2}$$
誤差を二乗することで、大きな誤差に対してペナルティを与えます
これはいわば、母集団における理論的なMSEの期待値表現でして、機械学習とかの文脈だと、以下のように予測値と実測値の差(誤差)の二乗の平均という形で表されます。
$${MSE = \frac{1}{n}\sum_{i=1}^n(y_i – \hat{y}_i)^2}$$
- ${n}$ はサンプル数
- ${y_i}$ は実測値
- ${\hat{y}_i}$ は予測値
バイアスとは、推測したパラメータ\(\theta\)の期待値と真のパラメータ${\theta}$の差で表されているため、不偏性を満たす場合は0となります。
つまり、不偏性を満たす場合に平均二乗誤差は推定量の分散と同値であると言えます。
以下のコンテンツでは、不偏性を持つ推定量にはバイアスがないことに加え、もっと詳しく平均二乗誤差と最良線形不偏推定量の説明を行なっております。
では、不偏分散と普通の分散をどう使い分けるのかというと、「対象の集団が母集団or標本」で使い分けます。
母集団全体の分散を調べたい時には、通常の分散ではなく、不偏分散を利用します。
不偏性を持たない分散について
さて、不偏性は望ましい推定量を決定する唯一の基準ではないですが、持っている方が良いです。
不偏性を持たない統計量、今回は分散について考えてみましょう。
まずは、母平均が\(E[X_i] = \mu\)で、母分散が\(Var(X_i) = \sigma^2\)である母集団からのランダム標本を考えてみましょう。
$$X_1…X_n \quad i.i.d〜(\mu,\sigma^2)$$
この標本から得られる値で、どう母分散\(\sigma^2\)を推定すれば良いでしょうか。
当然同じ分散である、標本分散を考えるはずです。
標本分散は\(s^2\)で表すとします。
$$s^2= \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\overline{X})^2$$
偏差の二乗の和の平均を取ったものです。これは高校で習いましたね。
では、この標本分散はどの程度母分散\(\sigma^2\)に近いのかを期待値を取って調べてみましょう。
とはいえ、標本分散から期待値を取るのは面倒なので、ゴールから逆算して、母分散を分解してみましょう。
$$\sum_{i=1}^{n}(X_{i}-\mu)^2=\sum_{i=1}^{n}((X_{i}-\overline{X})-(\overline{X}-\mu))^2$$
左辺は母分散を\(n\)倍したものです。
書くのが面倒なのでnを外しただけなので書いても構いません。
ちょっとテクニカルですが、正の標本分散と負の標本分散を加えて、強制的に一つ目の括弧に標本分散のような形を作ります。
$$\sum_{i=1}^{n}((X_{i}-\overline{X})-(\overline{X}-\mu))^2=\sum_{i=1}^{n}(X_{i}-\mu)^2-2\sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-\mu)+\sum_{i=1}^{n}(\overline{X}-\mu)^2$$
次はこのように括弧の中を普通に展開します。第一項に標本分散の\(n\)倍がきちんと現れたと思います。
同じように、第二項と第三項を見てみましょう。
$$-2 \sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-\mu)=-2n(\overline{X}-\mu)^2$$
第二項に関しては、\(\sum\)を外して和をとると右側と左側の括弧の中身は同じだということがわかります。
ただし\(X_i\)の和を\(\mu\)で表すときに\(n\)を括弧の外に出すことを忘れてはいけません。
$$\sum_{i=1}^{n}(\overline{X}-\mu)^2=n(\overline{X}-\mu)^2$$
第三項に関しては、そもそも括弧の中に\(i\)がないのでそのまま\(n\)倍すると\(\sum\)は外せます。
よって第二項と第三項はとても似た形になることがわかりました。
$$\sum_{i=1}^{n}(X_{i}-\overline{X})^2-2 \sum_{i=1}^{n}(X_{i}-\overline{X})(\overline{X}-\mu)+\sum_{i=1}^{n}(\overline{X}-μ)^2=\sum_{i=1}^{n}(X_{i}-\overline{X})^2-n(\overline{X}-\mu)^2$$
長くなりましたが、母分散は以上のように分解できることがわかりました。
期待値の算出
では、標本分散の期待値をとります。
$$E[s^2]=n \sigma^2-E[n(\overline{X}-\mu)^2]$$
先ほどの不偏性の式にはなりませんね。
この時点で、標本分散${s^2}$はそのままだと不偏性を持たないことがわかりました。
では、どのような値が不偏性を満たすのでしょうか。
$$E[s^2]=n\sigma^2-E[n(\overline{X}-\mu)^2]$$
$$nE[(\overline{X}-\mu)^2]=n× \frac{1}{n}×\sigma^2$$
第二項は上のように分解できました。結局母分散ですね。よって、\((n-1)\sigma^2\)が右辺です。
なので、元々の式を\((n-1)\)で割ると右辺は\(\sigma^2\)だけになります。
これによって不偏性が満たされそうです。
$$E[\frac{s^2}{n-1}]=\sigma^2$$
よって、元の標本分散を${n-1}$で割ったものが不偏性を持つ分散、すなわち不偏分散であるということになります。
サンプル数\(n\)が十分大きければ\(n-1\)でも\(n\)でも値が大して変わらないので教科書によっては、そのまま\(n\)を使うこともあります。
【例題】推定量が不偏性であるか、最尤であるかの議論
では、不偏性が何かを理解した上で以下のようなケースを考えてみましょう。
あたりが何個入っているかわからないくじを引くとします。 Aさん:100回引くと決めていて、そのうち1回だけあたりが出たので、1/100という確率を出した。 Bさん:あたりが出るまで続けると決めていて、たまたま100回目にあたりが出たので1/100という確率を出した。 この時に、両者は不偏性のある推定量を出しましたか? また、それぞれは最尤法と言えますか?
AさんとBさんのシナリオをそれぞれ評価していきましょう。
Aさんのシナリオ
-不偏性を持つか-
この推定量は不偏性を持ちます。
長期的に多くのサンプルを取って平均値を計算すると、真のパラメータに収束するからですね。
-最尤法か-
最尤推定量は、観測データが最も尤もらしいとなるパラメータ値を求めるものです。
ここでのシナリオでは、当たる確率が \(p\)で、100回のくじ引きで1回だけ当たる確率は以下のように計算できます
$$L(p)=p(1-p)^{99}$$
この尤度関数を最大にするのは\(p=\frac{1}{100}\)です。
したがって、Aさんの推定は最尤推定と言えます。
Bさんのシナリオ
-不偏性を持つか-
この推定量は不偏でありません。
当たるまで引き続ける方法は、短期的には過小評価または過大評価される可能性があり、長期的には真のパラメータに収束しません。
ちなみに成功一回までにかかった試行回数を確率変数とする分布を幾何分布と呼びます。
-最尤法なのか-
先ほどのAさんのシナリオと同様に、当たる確率が \(p\)で、初めて当たるまでの試行数が100回である確率は以下のように計算できます。
$$L(p)=p(1-p)^{99}$$
この尤度関数を最大にするのは\(p=\frac{1}{100}\)です。
したがって、Bさんの推定は不偏性はないが、最尤推定と言えます。
補足:不変性について
ここでは、不偏性ではなく不変性についてご紹介します。
不変性とは、最尤推定量の性質の一つです。
最尤推定量とは、確率密度の積である尤度関数を最大にするパラメータ\(\theta\)を推定量とします。
最尤推定量には、漸近正規性や一致性などの特徴もあります。
そして不変性とは以下のような性質です。
$$g(\theta)^{ML}=g(\theta^{ML})$$
このように、最尤推定量のパラメータを関数に代入した値がそのまま、関数\(g(\theta)\)自体の最尤推定量になるという性質です。
尤度や最尤推定量、尤度関数、そして尤度比検定については、以下のコンテンツをご覧ください。