【統計検定2級で最も厄介(主観)】分散分析を解説します②
さて、前回の記事に続いて分散分析を解説していきます。見ていない方は、是非ご確認ください。
記事1:【統計検定2級で最も手強い(主観)】分散分析について解説します①
まずはおさらいからです。
統計検定では、「分散分析」というものがよく出ます。「自由度」や「残差平方和」などの知識が必要で厄介です。
分散分析とは
分散分析とは、「データ全体の平均値からの各データのズレ」を以下の2つの要素に分解する手法です。
2グループの平均を比較するt検定とは違い、3グループ以上の水準の平均を比較する手法です。
①水準間平方和:データ全体の平均値からの各水準の平均値のずれ(本当に知りたい方)
②残差平方和:それ以外のずれ(各水準の平均値から各データのずれ)
これをざっくりと理解してから、例題を解いていきましょう。
【例題1】次の表は、2021年度にテーマパークAとテーマパークBのアトラクション別年間来場者数をまとめたものです。単位は万人。
各テーマパーク内において、入場者数は独立で同一の分布に従い、かつ2つのテーマパークの年間入場者数の分散は等しいとみなします(等分散の仮定)。
両テーマパークの年間入場者数の母平均には差があるのかどうかを調べたいです。
star | land | sea | sky | earth | space | 平均 | 偏差平方和 |
218 | 303 | 198 | 296 | 201 | 186 | 233.7 | 13,549 |
red | blue | green | yellow | white | black | 平均 | 偏差平方和 |
209 | 177 | 167 | 145 | 161 | 253 | 185.3 | 7,763 |
(1)2つの母平均に差に関するt検定を行います。t値を求めてみましょう。小数第3位を四捨五入してください。
(2)同様の帰無仮説・対立仮説に対して,一元配置分散分析を行うことを考えます。一元配置分散分析におけるF-値を求めてみましょう。小数第3位を四捨五入してください。
-解説1-
(1)この問題は分散分析とはあんまり関係ないですが、2標本のt検定という結構高度な知識が必要な問題でした。
2標本問題におけるt値は以下のようにして計算できます。
$$t=\frac{2標本の偏差}{\sqrt{2標本をプールした分散(\frac{1}{N_{a}}+\frac{1}{N_{b}})}}$$
①分子の2標本の平均の差を求める
これはそのまま表に書いている数字の差を取れば良いので簡単ですね。233.7-185.3 = 48.4です。
②\(\frac{1}{N_a}\)と\(\frac{1}{N_b}\)の確認
テーマパークAとテーマパークBのそれぞれのサンプル数なので、どちらも6です。1/6 + 1/6 = 1/3です。
③2標本をプールした分散を求める
「プールした」とは、「加重平均を取った」と考えていただければOKです。
$$σ^2=\frac{(N_{a}-1)×σa^2+(N_b-1)×σb^2}{(N_a-1)+(N_b-1)}$$
不偏分散なので、ちゃんとサンプル数から1を引いてあげる必要があります。
まずは、それぞれの不偏分散を求めてあげましょう。
④テーマパークAの不偏分散を求める
$$σa^2=\frac{偏差平方和}{N_a-1}$$
ここで漸く偏差平方和が使えそうですね。
テーマパークAの偏差平方和は、13,549でNα – 1 = 5なのでテーマパークAの不偏分散は、2,709.8です。
しつこいですが、不偏分散はサンプル数から1を除いてください。
⑤同じようにテーマパークBの不偏分散を求める
テーマパークBの偏差平方和は、7,763でNb-1 = 5なので、テーマパークBの不偏分散は、1,550.6です。
⑥2標本をプールした不偏分散を求める。
③の式に代入してあげましょう。計算すると、分子は21,302で分母は10より、プールした不偏分散は2,130.2です。
⑦t値を求める
先ほどのt値の式に代入すると、分母は26.647で、分子は48,4より答えは1.81633‥となります。四捨五入して1,82です。
-解説2-
丁寧にみていきましょう。
そもそも結論であるF値には、何が必要なのでしょうか?
F値とは、「残差平均平方和に対して水準間平均平方和がどのくらい大きいか」を測る指標です。
前回の記事でも記載した通り、興味があるのは「水準間」です。この問題でいう「水準間」とは、「テーマパーク間の差」です。
前回の記事はこちらから。【統計検定2級で最も手強い(主観)】分散分析について解説します①
$$F value = \frac{水準間平均平方和}{残差平均平方和}$$
以上から、F値はこのように表すことができます。分散分析表を作るとわかりやすそうですね。
因子 | 平方和 | 自由度 | 平均平方和 | F値 |
水準 | 必要 | 必要 | 必要 | ここを求めたい! |
残差 | 必要 | 必要 | 必要 | ? |
全体 | ? | ? | ? | ? |
①自由度を求めてみましょう。
これは前回の記事でも勉強しました。
水準間の自由度は、水準のサンプル数から1を引いたもの。テーマパークの数2から1をひいた1です。
全体の自由度は、行数×列数-1です。2(テーマパーク数)×6(アトラクションの数)-1 より11です。
残差の自由度は、全体の自由度から水準間の自由度を除いたものです。よって11-1で10です。
②水準間平方和と残差平方和を求めてみましょう。
個人的には、ここが一番難しいです。目的を明確にしないと何をして良いかわからないからです。
とにかく目的は、「テーマパーク間の年間入場者数には差があるのか」です。
なので、12個のアトラクションの入場者数の平均から、各テーマパークの平均を引いたものが必要です。
12個のアトラクションの入場者数の平均は、\(\frac{233.7 + 185.3}{2} = 209.5\)となりました。
この平均に対して、各テーマパークの平均はどのくらい違うでしょうか?(2乗するのでマイナスでもokです)
テーマパークA:\(233.7 – 209.5 = 24.2\)
テーマパークB:\(185.3 – 209.5 = -24.2\)
当然ですが、各テーマパークの平均のちょうど間を取った値になります。ここから平方して和(6をかける)を取りましょう。
$$水準間平方和=(24.2)^2×6+(24.2)^2×6$$
結果は、7027.68になりました。
残差平方和に関しては、「各テーマパークのアトラクション間の平方和の和」です。
もう表に書いてありますね。13549 + 7763. = 21312です。
③水準間平均平方和と残差平均平方和を求める。
これまでで分かったところを表に埋めてみましょう。結構分かってきましたね。
因子 | 平方和 | 自由度 | 平均平方和 | F値 |
水準 | 7027.68 | 1 | 必要 | ここを求めたい! |
残差 | 21312 | 10 | 必要 | ? |
全体 | ? | 11 | ? | ? |
各平均平方和は、「平方和を自由度で割ったもの」です。
よって、水準間平均平方和はそのまま7027.68で、残差平均平方和は2131.2です。
④F値を求める
7027.68/2131.2 = 3.297522‥です。四捨五入して、3.30です。
補足:回帰分析におけるF値について
分散分析によるF値は、水準間平均平方和を、残差平均平方和で割った値です。
それぞれの平均平方和は、データ数で割るのではなく、自由度で割ります。
よって、以下のようになります。
$$Fvalue = \frac{水準間平均平方和}{残差平均平方和}$$
回帰分析の文脈で言えば、F値は説明変数のうち少なくとも一つが目的変数の役にたつかどうかを判定するための指標です。
一方、t値は個々の説明変数がいるかいらないかを判断するための指標です。
F値は、書き換えると以下のように表せます。
$$F value = \frac{n-p-1}{p}\frac{R^2}{1-R^2}$$
もし全ての説明変数が不要、すなわち\(β_1=β_2,…,β_p=0\)であったならば、Fは自由度p,n-p-1のF分布に従うことが知られています。
次回は、Rを使った分散分析でさらに理解を深めましょう。
検定の多重性を理解したい方はこちらをどうぞ。