【統計検定2級で最も手強い(主観)】分散分析について解説します①
こんにちは、青の統計学です。
統計検定では、実験計画法の分野で「分散分析」というものがよく出ており、「自由度」や「残差平方和」などの知識が必要で厄介です。
今回は、分散分析について解説いたします。
統計検定2級に挑戦したい方は、こちらのnoteもぜひご覧ください。(リポストすると割引になります!)
分散分析とは
分散分析とは、「データ全体の平均値からの各データのズレ」を以下の2つの要素に分解する手法です。
①水準間平方和:データ全体の平均値からの各水準の平均値のずれ(本当に知りたい方)
②残差平方和:それ以外のずれ(各水準の平均値から各データのずれ)
これをざっくりと理解してから、例題を解いていきましょう。
-例題-
次の表はある居酒屋の月別の売上高(単位:万円)を2008年から2018年までの11年間集計したものです。
モチベーションとしては、月ごとの売上高に有意な差があるかどうかを考察したいです。
2008 | 2009 | 2010 | ‥ | |
1月 | 575 | 630 | 613 | ‥ |
2月 | 556 | 583 | 571 | ‥ |
3月 | 622 | 663 | 645 | ‥ |
‥ | ‥ | ‥ | ‥ | ‥ |
このデータを用いて月を変動要因とする一元配置分散分析を行った結果、次の表を得ました。
ただし、それぞれの月で売上高の平均は一定であり、誤差は独立かつ同一の分布に従うと仮定する。
変動要因 | 平方和 | 自由度 | F値 |
水準間 | 317441 | ? | 3.0471 |
残差 | 1136491 | ? |
(1\(j\) 年\(i\) 月の売上高を \(y_{ij} (i=1,…,12,j = 2008,…,2018)\)とし、水準間平方和\(Sa\)と残差平方和\(Se\)を立式してみましょう。
(2)月ごとの売上高の母平均を\(\mu_i(i = 1,…,12)\)とする。
一元配置分散分析を有意水準5%で行いましょう。
-解説-
(1)水準間平均のみ/残差平均のみ/水準間平均と残差平均どちらも/どちらでもない
この四通りを区別する表し方が必要ですので、以下のように解説では表します。
(答え方は何でも良いと思います)
①水準間平均のみ
$$\overline{y}_{.j}$$
j年(2008~2018)
②残差平均のみ
$$\overline{y}_{i.}$$
i月(1~12)
③水準間平均と残差平均どちらも
$$\overline{y}_{..}$$
④どちらも平均は取らない
$$y_{ij}$$
まず水準間平方和\(Sa\)を求めてみましょう。
今回みたい差は「水準間」つまり「月」の差です。
月の偏差だけ見たいので、
$$\overline{y}_{i.}-\overline{y}_{..}$$
年の\(j\)は平均として同じ値に固定しておいて、一方だけ月の平均が含まれているものを引きます。
当然、「平方」なので「偏差は2乗」します。
$$Sa=\sum_{i=1}^{12}11(\overline{y}_{i.}-\overline{y}_{..})^2$$
年の方は平均しているだけなので\(11\)をかけてちゃんと「和」にします。
残った「水準」の\(i\)は、ちゃんと和の記号を使って足し合わせます。
これで正解になります。
次に残差平方和を求めてみましょう。
$$y_{ij}-\overline{y}_{i}$$
同じように偏差には平方を取ります。
わかりにくいかもしれませんが、この差は「興味のない年\(j\)による効果」です。
今回興味のある「月」は固定されているので、文字として残しておきます。
月の影響がないまま、年の効果だけが出るように差をとっているわけです。
\(\sum\)の右側には\(i\)と\(j\)の二つの文字があります。
それぞれ和をとってあげる必要がありますね。
\(i\)は1から12まで、\(j\)は2008から2018までです。
以下が残差平方和になります。
$$Se=\sum_{i=1}^{12}\sum_{j=2008}^{2018}(y_{ij}-\overline{y}_{i.})^2$$
残差平方和に関しては、回帰分析でも良く扱うので覚えておくと良いでしょう。
これほど複雑な形ではありません。
単回帰分析で言うと\(\sum(y-\beta_{x_i})^2\)です。
(2)一元配置分散分析における帰無仮説は「すべての水準の母平均が等しい」であり、対立仮説は「少なくとも1つの水準の母平均が異なる(全ての水準のうち母平均が異なる水準がある)」です。
「全ての水準の母平均は互いに異なる」ではないことに注意が必要です。
ベン図を考えればよくわかると思います。
\(H_0\):全ての水準の母平均は等しい
\(H_1\):少なくとも一つの平均は異なる
また、F値が出るのでそれぞれの自由度を知る必要があります。
残差の自由度は、全体の自由度から水準間の自由度を除いた数のことです。これは覚えましょう。
水準間の自由度は、水準の数(違いがあるか分析したい基準のこと。今回なら月の数です)から1を引いた数です。
よって\(12-1=11\)
全体の自由度は、行数×列数-1です。\(12×11-1=131\)です。
よって残差の自由度は\(131-11=120\)です。
F分布(F distribution)
F分布は確率密度関数を覚える必要はないですが、理論的な面でよく使います。
カイ二乗分布やスチューデントのt分布と同様に、標本に関する分布ですね。
F分布は、2つの母集団の分散が等しいかどうかを比較するために使用される統計的手法です。
一般的に、以下のような場合にF分布を使用します。
1.F分布は、2つの母集団の分散が等しいかどうかを比較するために使われます。
例えば、2つの製品の品質を比較する場合、その製品が生産される工場によって品質に差がある場合があります。
この場合、工場Aと工場Bで製品を生産し、それらの品質の分散を比較することができます。
2.回帰分析のモデル適合度の検定 F分布は、回帰分析のモデル適合度の検定にも使用されます。
回帰モデルを作成する場合、F分布を使用して、回帰モデルが有意な予測を行っているかどうかを判断することができます。
3.多重比較 F分布は、多重比較にも使用されます。
多重比較は、複数の母集団の平均値を比較するために使用されます。F分布は、比較する母集団の数が3つ以上の場合に使用されます。
今回の分散分析にあたります。
さて、F値が載ってる表をみてみましょう。
これは有意水準5%の時の表です。
1%や2.5%の時は別の表になるので注意しましょう。
残念ながら\(n=11,m=120\)のF値は細かすぎてありませんでした。
近似する\(n=10,m=120\)のF値をみましょう。
ちなみに横軸を第1自由度、縦軸を第2自由度と呼びます。
α=0.05 | 10 | 12 | 15 | 20 | 24 | 30 | 60 | 120 |
2 | 19.3959 | 19.4125 | 19.4291 | 19.4458 | 19.4541 | 19.4624 | 19.4791 | 19.4874 |
3 | 8.7855 | 8.7446 | 8.7029 | 8.6602 | 8.6385 | 8.6166 | 8.5720 | 8.5493 |
4 | 5.9644 | 5.9117 | 5.8578 | 5.8025 | 5.7744 | 5.7459 | 5.6877 | 5.6581 |
5 | 4.7351 | 4.6777 | 4.6188 | 4.5581 | 4.5272 | 4.4957 | 4.4314 | 4.3985 |
6 | 4.0600 | 3.9999 | 3.9381 | 3.8742 | 3.8415 | 3.8082 | 3.7398 | 3.7047 |
7 | 3.6365 | 3.5747 | 3.5107 | 3.4445 | 3.4105 | 3.3758 | 3.3043 | 3.2674 |
8 | 3.3472 | 3.2839 | 3.2184 | 3.1503 | 3.1152 | 3.0794 | 3.0053 | 2.9669 |
9 | 3.1373 | 3.0729 | 3.0061 | 2.9365 | 2.9005 | 2.8637 | 2.7872 | 2.7475 |
10 | 2.9782 | 2.9130 | 2.8450 | 2.7740 | 2.7372 | 2.6996 | 2.6211 | 2.5801 |
縦軸10と横軸120の交差するところに\(2.58\)という値が見つかりました。
\(2.58\le3.0471\)なので帰無仮説は棄却されます。
よって、「月毎に売上高にある変化には何らかの意味がある」ということが言えそうです。
ただし、分散分析は、どの水準とどの水準の間の差に有意差があるのかわかりません。
分散分析で分かったのは、
「どの水準にも差はないのでしょうか?」
という仮説が否定されて、
「水準間に差はあります。ただし、どの水準とどの水準の間の差が有意かまでは分からないです。」
というところまでです。
F分布とカイ2乗分布の関わり
以下のような関係があります。
\(Y1\)を自由度\(k1\)のカイ2乗分布に従う確率変数で、\(Y2\)を自由度\(k2\)のカイ2乗分布に従う確率変数とします。
\(Y1\)と\(Y2\)が独立の時、以下のような関係が成り立ちます。
$$\frac{\frac{Y_{1}}{k_{1}}}{\frac{Y2}{k2}}〜F(k_{1},k_{2})$$
確率変数が、自由度\(k1,k2\)のF分布に従うことがわかりました。
分散分析を極めたい方は、こちらのコンテンツをご覧下さい。
検定の多重性を理解したい方はこちらをどうぞ。