【統計検定2級】第一種の過誤と第二種の過誤について
今回は、統計検定2級で頻出の「第一種の過誤(type I error)と第二種の過誤(type II error)」について解説します。
仮説検定では、比較するモデル同士を帰無仮説と対立仮説に分けます。パラメーター数が少ないモデルが帰無仮説です。
そして、仮説検定には、以下の2種類の誤りがあります。
Type I error & Type II error
第1種の過誤:帰無仮説が正しいのに帰無仮説を棄却してしまう誤り。
つまり、第1種の過誤の確率αは有意水準と同値です。言い換えれば、棄却域内の確率の和です。
第2種の過誤:帰無仮説が誤りなのに、帰無仮説を棄却しない誤り。
第二種の過誤の確率βは、対立仮説の棄却域外における確率の和です。特徴としては、分散が大きいほど第2種の過誤は大きくなります。
基本的にαが大きくなるとβは小さくなるという負の相関があります。
求め方としては、
①対立仮説が正しいと仮定する
③棄却域を基に、分布表を見る。
ちなみに、1から第2種の過誤の確率βを除いたものは、「検出力」と言います。
検出力を上げるには、サンプルサイズを上げるなどの方法があります。
表にして表すとこの通りです。
帰無仮説 | 棄却する | 棄却できない |
真 | type I error | ○ |
偽 | ○ | type II error |
機械学習でも使う混合行列にも同じ考えを適用しています。
詳しくは、【多変量解析】ROC曲線とAUCによる判別分析|pythonをご覧ください。
【例題】
サイコロの各目が出る確率分布が、次の P0 または P1 いずれかであり、以下のような仮説検定をおこないます。
帰無仮説 H0 : X の分布は P0
対立仮説 H1 : X の 分布は P1
x | 1 | 2 | 3 | 4 | 5 | 6 |
P(X=x) | 0.1 | 0.1 | 0.1 | 0.15 | 0.25 | 0.3 |
x | 1 | 2 | 3 | 4 | 5 | 6 |
P(X=x) | 0.4 | 0.3 | 0.2 | 0.05 | 0.05 | 0 |
(1)棄却域をx<4とする。この時の第一種の過誤の確率と第二種の過誤の確率、検出力を求めてみましょう。
【解説】
離散確率分布を扱う問題でした。
第一種の過誤の確率は、帰無仮説の棄却域内における確率の和です。よって、
0.1+0.1+0.1=0.3です。
第二種の過誤の確率は、対立仮説の棄却域外における確率の和です。よって、
0.05+0.05+0=0.1です。
検出力は、1と第二種の過誤の差です。よって0.9になります。
*注意
第一種の過誤の確率を下げたければ、棄却域の範囲を狭めたら良いです。
→棄却域の範囲を狭めると、棄却域外が大きくなり、第二種の過誤の確率は上がります。
→トレードオフの関係にあります。下のようなグラフを書けます。
最強力検定
2つの過誤の確率や検出力についての理解が深まった方に、いくつか検定方法をご紹介します。まずは、最強力検定です。
最強力検定とは、「有意水準が同一のもとで、ある検定Fとある検定Gの検出力1-βを比べた時、Fの方が大きい時」に、「FはGより強力」であると言います。
つまり検定として優れているということになります。
この考え方は、「一定以下のαで、検出力1-βが最大の区間」を一番良い区間として評価するという、ある種当たり前の考えを反映しています。
当然他の条件が正しく、有意水準が一定以下なら、検出力は高ければ高いほど良いです。
帰無仮説と対立仮説がどちらも単純仮説(パラメータが一つ)の時、検出力を最大にする最強力検定が存在します。
これを、ネイマン・ピアソンの補題と言います。
Neyman-Pearsonの仮説検定
ここまでの話で、第一種の過誤と第二種の過誤はトレードオフの関係にあることが理解できたと思います。
このことから、一般的な仮説検定では第一種の過誤の大きさにのみ注目します。どちらの過誤も避けるのは現実的に難しいからです。
この検定を、ネイマン・ピアソンの仮説検定と呼びます。
第一種の過誤の大きさに注目する以上、帰無仮説が棄却できない時には「結論が言えない」というデメリットがあります。例えば、帰無仮説が棄却できない時は、「帰無仮説が正しい」とは言えません。
あくまで、「現在設定した有意水準では、帰無仮説と対立仮説は正しいとも正しくないとも言えない」という結論にしかなりません。
ここまでの説明で、「ネイマンピアソンの仮説検定は、モデル同士を比較する多くの方法のうち一つでしかない」と理解いただけたかと思います。
他のモデルの比較に関しては、以下のコンテンツをご覧ください。
有意水準とp値について復習したい方はこちらをご覧ください。
【仮説検定】p値をゼロから解説(第一種の過誤,第二種の過誤,検出力)