【仮説検定】p値をゼロから解説(第一種の過誤,第二種の過誤,検出力)

こんにちは、青の統計学です。

p値や有意水準の意味を正しく理解しているでしょうか?

実験計画や分析報告等で、正しく指標を使うためにも統計的仮説検定の正確な理解はとても大事です。

結論を語りますが、P値や有意性は、効果の大きさや結果の重要性を示唆するものではないです。

p値を使って、p値がこの値を超えたからだめ、などの科学的な結論や政策評価を行なってはいけないということです。

統計検定のチートシートは以下をクリック!

【最短合格】統計検定準一級のチートシート|難易度や出題範囲について

【第2弾】統計検定準1級のチートシート|最短合格への道

【やや細かい】G検定のチートシート|最短合格

【最短】統計検定2級合格ロードマップとチートシート|おすすめの本について

p値(p value)

p値とは、構成した統計モデルの仮定の一つである、「帰無仮説」と得られたデータの矛盾度を測る指標です。

ここの理解がよく誤解を生むのですが、p値は「調べている仮説が正しい確率」や「たまたま発生した確率」を測るものではないです。

p値が小さければ、帰無仮説とデータが矛盾する程度が高いです。

p値を算出する目的ですが、観測した事象が稀なものなのか、十分起こりうるのかを判断するためです。

そしてその基準となるのが、有意水準(statistical significance)と呼ばれるものです。

以下のような基本的な問題を例に挙げます。

あるコインの表が出る確率が裏表で公平かどうかを確かめたいです。
コインが表である確率をλとします。

ここで、帰無仮説と対立仮説を以下のように設定します。

H0(帰無仮説):λ=1/2

H1(対立仮説):λ≠1/2

帰無仮説は、「棄却したい」仮説でした。

今回の統計的仮説検定の主体としては、「このコインの表裏のデル確率は、公平ではないだろう」と考えています。

p値が設定した有意水準よりも小さければ、観測した事象はまれに起こるものとして、棄却(帰無仮説を支持する材料にはなり得ない)します

p値が設定した有意水準よりも大きければ、帰無仮説は棄却できません。

帰無仮説を棄却できない場合、「帰無仮説は正しい」とも「対立仮説は正しい」とも言えません。

次に有意水準を設定します。
有意水準α=0.05と設定しました。

今回は、コインを10回投げます。
すると、裏が出ずに表が10回も出てしまいました。←事象の観測

10回中、表が10回も出る確率は、帰無仮説が正しい(λ=1/2)と仮定するならば、\({\frac{1}{2}}^{10}=0.0009765625\)です。

「観測した事象が起きた確率」が\(0.0009765625\)となり、これがp値だということです。

これは、事前に設定した有意水準\(α\)と比べても小さいです。

つまり、観測した事象が稀に起こるものとして、帰無仮説H0を棄却します。

→今回の統計的仮説検定では「コインの表裏が出る確率は公平とは言えない」となります。

…ただ、p値というのは統計モデルとデータの矛盾を評価する指標の一つなので、「p値が閾値をしたまわる場合、帰無仮説を棄却すべき」まで言えません。

当然サンプルサイズを増やすほど、有意にはできますし、仮説

母集団の分布が正規分布に従う時には、検定統計量が確率分布に従うことが知られています。

(この問題を扱う場合がほとんど)

今度は、平均\(μ\)で分散\(σ^2\)の正規分布に従うデータ\(X\)について考えてみます。

$$X_1,..,X_n〜N{μ,σ^2}$$

分散と期待値が未知である時、平均\(μ\)がある値\(μ_0\)に等しいかどうかについての統計的仮説検定を行います。

帰無仮説と対立仮説は以下のようになります。

H0:μ = μ_0
H1:μ ≠ μ_0

正規分布の期待値と不偏分散は以下のように表すことができます。

$${\overline{X}}={\frac{1}{n}}{\sum_{i=1}^{N}X_i,S_i={\frac{1}{n-1}}}{\sum_{i=1}^{N}(X_i-{\overline{X}})^2}$$

不偏分散については、以下のコンテンツをご覧ください。

【n-1】不偏分散を解説します。

以上の平均と分散から、検定統計量は以下のようになります。

$$Z={\sqrt{n}}{\frac{{\overline{X}}-μ_0}{\sqrt{S_n}}}$$

こちらは、t統計量と呼ばれる統計量です。

推定値と観測値の差を標準誤差で割ったものになります。

そして、標準誤差とは標準偏差をサンプル数の平方根で割ったものです。

$$SE = {\sqrt{\frac{\hat{σ}^2}{n}}}$$

詳しくは、以下をご覧くださいませ。

【Standard Error】標準誤差を例題を通して解説

【t検定】t統計量(t値)の求め方

不偏分散を使うため、検定統計量は正規分布に従いません。

自由度n-1のt分布に従います。

$$P(|Z|>{\sqrt{n}C})=2P(Z>{\sqrt{n}C})$$

上は棄却域です。この範囲に値があれば、帰無仮説は棄却されます。

Cは臨海値と呼ばれ、有意水準がαとなるように決まります。

$$C = {\frac{1}{n}}t_{n-1,α/2}$$

あとは有意水準に従い、t分布の表からCの値を求めれば棄却域が決定し、有意であるかどうかがわかります。

検定統計量と分布について

先ほど例に挙げたものは、「分散と期待値が未知である」場合でした。

1標本問題と2標本問題、分散未知かどうかによって検定統計量がどの分布に従うかは異なります。

以下のようにまとめました。

-1標本かつ分散既知/平均の検定-

帰無仮説H0のもとで、検定統計量は標準正規分布に従います。

$$Z={\sqrt{n}}{\frac{{\overline{X}-μ_0}}{σ}}$$

-1標本かつ分散未知/平均の検定-

帰無仮説H0のもとで、検定統計量は自由度\(n-1\)の\(t\)分布に従います。

上に挙げた例です。

$$Z={\sqrt{n}}{\frac{\overline{X}-μ_0}{\sqrt{S_n}}}$$

-2標本かつ分散既知/平均の検定-

帰無仮説\(H0\)のもとで、検定統計量は標準正規分布に従います。

2標本の分散がわかっている状態の実験は、ほとんどありません。

また、2標本の分散が等しい「等分散」の検定については、以下でまとめています。

【等分散の仮定】2標本問題ってなんだ?

$$Z = {\frac{{\overline{X}_A}-{\overline{X}_B-δ_0}}{σ{\sqrt{{\frac{1}{N_A}}+{\frac{1}{N_B}}}}}}$$

-2標本かつ分散未知/平均値の検定-

帰無仮説\(H0\)のもとで、検定統計量は自由度(2標本のサンプル数の合計-2)のt分布に従います。

$$T = {\frac{{\overline{X}_A}-{\overline{X}_B-δ_0}}{s{\sqrt{{\frac{1}{N_A}}+{\frac{1}{N_B}}}}}}$$

1標本の時と比べて、分散が不偏分散になっています。

p値に関する議論

Redefine statistical significance

これまで解説してきたp値には、懐疑的な意見が多数あります。

今回は、72名の研究者が連名して提言した「Redefine statistical significance」についても解説いたします。

こちらは、\(0.05\)という慣習的なp値の閾値を\(0.005\)にしようという主張です。

-要約-

現状:実験内容の再現性の欠如を引き起こす原因として、「多重検定やp-hacking、印刷バイアス」などがあるが、

それらへの対処については、これまで多くの進展があった。

-課題-

統計的有意の基準があまりにも低すぎる。

-主張-

これからの実験研究に限るが、帰無仮説の検定を\(p<0.05\)から\(p<0.005\)に変更してはどうか。

-根拠-

①\(p<0.05\)では不十分である。

1:まず、両側\(p=0.05\)の場合、対応するベイズ因子が\(2.5~3.4\)となっている。ベイズ因子の値に関しては「弱い」と評価されている。

2:多くの研究者は、\(p=0.05\)であることの方が、ベイズ因子が\(2.5~3.4\)よりも\(H1\)(対立仮説)をより強く支持すると考えている。(本当は等価)

→帰無仮説を棄却する根拠としてはどちらも同程度なのに、p値の方を過大評価する風潮があると警鐘を鳴らしています。

②\(p<0.005\)にすることのメリット

1:両側\(α_{0.005}\)は、ベイズ因子がおよそ\(14~26\)の値に収まるとされる。
ベイズ因子の値に関しては、「強い」とされる。

2:多くの分野で\(p<0.005\)だと偽陽性率が妥当と判断できるまでに低下する。

→低い検出力と高いp値(0.05)があると、高い偽陽性率につながります(最低でも33%)。これがp<0.05だと偽陽性率が5%以下にまで抑えられます。

3:多くの分野で、\(p<0.005\)にした方が\(0.005<p<0.05\)よりも再現率が\(2\)倍以上になっている。

また、p値に対する米国の統計学会の声明もあったので引用しておきます。

' P-values can indicate how incompatible the data are with a specified statistical model.'
→「p値は、データが特定の統計モデルとどれほど互換性がないかをさし示してくれる」


'P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.'
→「p値は、研究された仮説が正しいとする確率を測ることはせず、ランダムに偶然によってだけ生成された確率を測る。」


'Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.'
→「科学的な結論やビジネス、あるいは政策決定は、p値が特定の閾値を超えたかどうかということだけを根拠にするべきではない。」


'Proper inference requires full reporting and transparency.'
→「適切な推論には、完全な報告と透明性が必要とされる。」


'A p-value, or statistical significance, does not measure the
size of an effect or the importance of a result.'
→「p値、つまり統計的有意さは統計的な効果の大きさや結果の重要度を測るものではない。」


'By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.'
→「p値だけでは、モデルや仮説に関する証拠を十分に示すことはない。」

このようにp値に頼って主張を展開することはリスクが多いことが語られています。

近年では、有意水準だけでなく、効果量や検出力も同時に提示することが論文では主流になっています。

検出力(statistical power)

では、検出力について深掘りをしましょう。

検出力については、【統計検定2級】第一種の過誤と第二種の過誤についてで少し解説しております。

先ほど、p値(p value)が基準となる有意水準を下回っている場合には、観測値を「極めて稀なこと」と捉えて、帰無仮説を棄却していました。

しかし。帰無仮説H0が真に正しい場合でも有意と判断されることがあります。

これを第一種の過誤(type I error)と呼びます。

有意水準αと同値ですね。

また、対立仮説

H1が正しい場合でも有意と判定されないこともあります。

これは第二種の過誤(type II error)と呼びます。

こちらはβとして表します。

そして、1-βを検出力と呼びます。

$$power = 1-β$$

つまり、対立仮説が正しいかつ、正しく有意と判定される確率です。

特徴としては、サンプルサイズが増えれば増えるほど、βは減るため、検出力としては高くなります。

別のコンテンツで仮説検定についてまとめております。

2標本問題については、以下をご覧ください。

【非等分散編】pythonでWelchのt検定をやってみた

分散分析については、以下をご覧ください。

【統計検定2級で最も手強い(主観)】分散分析について解説します①

【統計検定2級で最も厄介(主観)】分散分析を解説します②

【統計検定2級】分散分析の信頼区間について(電卓必須)

【統計検定2級】Rで分散分析を実践(F検定もやります)

【統計検定準一級】分散分析による検定の多重性について

FOLLOW ME !