【統計検定2級で最も厄介(主観)】分散分析を解説します②
さて、前回の記事に続いて分散分析を解説していきます。
統計検定2級に挑戦したい方は、こちらのnoteもぜひご覧ください。(リポストすると割引になります!)
画像をクリックすると記事に飛びます。
分散分析とは
まずはおさらいからです。
統計検定では、「分散分析」というものがよく出ます。
「自由度」や「残差平方和」などの知識が必要で厄介です。
分散分析とは、「データ全体の平均値からの各データのズレ」を以下の2つの要素に分解する手法です。
2グループの平均を比較するt検定とは違い、3グループ以上の水準の平均を比較する手法です。
①水準間平方和:データ全体の平均値からの各水準の平均値のずれ(本当に知りたい方)
②残差平方和:それ以外のずれ(各水準の平均値から各データのずれ)
これをざっくりと理解してから、例題を解いていきましょう。
【例題1】次の表は、2021年度にテーマパークAとテーマパークBのアトラクション別年間来場者数をまとめたものです。単位は万人です。
各テーマパーク内において、入場者数は独立で同一の分布に従い、かつ2つのテーマパークの年間入場者数の分散は等しいとみなします(等分散の仮定)。
両テーマパークの年間入場者数の母平均には差があるのかどうかを調べたいです。
star | land | sea | sky | earth | space | 平均 | 偏差平方和 |
218 | 303 | 198 | 296 | 201 | 186 | 233.7 | 13,549 |
red | blue | green | yellow | white | black | 平均 | 偏差平方和 |
209 | 177 | 167 | 145 | 161 | 253 | 185.3 | 7,763 |
(1)2つの母平均に差に関するt検定を行います。t値を求めてみましょう。小数第3位を四捨五入してください。
(2)同様の帰無仮説・対立仮説に対して,一元配置分散分析を行うことを考えます。一元配置分散分析におけるF-値を求めてみましょう。小数第3位を四捨五入してください。
-解説1-
(1)この問題は分散分析とはあまり関係ないですが、2標本のt検定という知識が必要な問題でした。
2標本問題におけるt値は以下のようにして計算できます。
$$t=\frac{2標本の偏差}{\sqrt{2標本をプールした分散(\frac{1}{N_{a}}+\frac{1}{N_{b}})}}$$
①分子の2標本の平均の差を求める
これはそのまま表に書いている数字の差を取れば良いので簡単ですね。
233.7-185.3 = 48.4です。
②サンプル数の確認
テーマパークAとテーマパークBのそれぞれのサンプル数なので、どちらも6です。
$${1/6 + 1/6 = 1/3}$$
③2標本をプールした分散を求める
「プールした」とは、「加重平均を取った」と考えていただければOKです。
$$\sigma^2=\frac{(N_{a}-1)×\sigma a^2+(N_b-1)×\sigma b^2}{(N_a-1)+(N_b-1)}$$
不偏分散なので、ちゃんとサンプル数から1を引いてあげる必要があります。
まずは、それぞれの不偏分散を求めてあげましょう。
④テーマパークAの不偏分散を求める
$$\sigma a^2=\frac{偏差平方和}{N_a-1}$$
ここで漸く偏差平方和が使えそうですね。
テーマパークAの偏差平方和は、13,549で\(N_a – 1 = 5\)なのでテーマパークAの不偏分散は、2,709.8です。
しつこいですが、不偏分散はサンプル数から1を除いてください。
⑤同じようにテーマパークBの不偏分散を求める
テーマパークBの偏差平方和は、7,763でNb-1 = 5なので、テーマパークBの不偏分散は、1,550.6です。
⑥2標本をプールした不偏分散を求める。
③の式に代入してあげましょう。計算すると、分子は21,302で分母は10より、プールした不偏分散は2,130.2です。
⑦t値を求める
先ほどのt値の式に代入すると、分母は26.647で、分子は48,4より答えは1.81633‥となります。
四捨五入して1,82です。
-解説2-
丁寧にみていきましょう。
そもそも結論であるF値には、何が必要なのでしょうか?
F値とは、「残差平均平方和に対して水準間平均平方和がどのくらい大きいか」を測る指標です。
F統計量が従うF分布については、この記事の後半で記載しております。
前回の記事でも記載した通り、興味があるのは「水準間」です。この問題でいう「水準間」とは、「テーマパーク間の差」です。
$$F value = \frac{水準間平均平方和}{残差平均平方和}$$
以上から、F値はこのように表すことができます。
分散分析表を作るとわかりやすそうですね。
因子 | 平方和 | 自由度 | 平均平方和 | F値 |
水準 | 必要 | 必要 | 必要 | ここを求めたい! |
残差 | 必要 | 必要 | 必要 | ? |
全体 | ? | ? | ? | ? |
平均平方和とはつまり分散のことであり、残差の平均平方和は母分散にあたります。
①自由度を求めてみましょう。
これは前回の記事でも勉強しました。
水準間の自由度は、水準のサンプル数から1を引いたもの。
テーマパークの数2から1をひいた1です。
全体の自由度は、行数×列数-1です。
2(テーマパーク数)×6(アトラクションの数)-1 より11です。
残差の自由度は、全体の自由度から水準間の自由度を除いたものです。
よって11-1で10です。
②水準間平方和と残差平方和を求めてみましょう。
個人的には、ここが一番難しいです。
目的を明確にしないと何をして良いかわからないからです。
とにかく目的は、「テーマパーク間の年間入場者数には差があるのか」です。
なので、12個のアトラクションの入場者数の平均から、各テーマパークの平均を引いたものが必要です。
12個のアトラクションの入場者数の平均は、\(\frac{233.7 + 185.3}{2} = 209.5\)となりました。
この平均に対して、各テーマパークの平均はどのくらい違うでしょうか?(2乗するのでマイナスでもokです)
テーマパークA:\(233.7 – 209.5 = 24.2\)
テーマパークB:\(185.3 – 209.5 = -24.2\)
当然ですが、各テーマパークの平均のちょうど間を取った値になります。
ここから平方して和(6をかける)を取りましょう。
$$水準間平方和=(24.2)^2×6+(24.2)^2×6$$
結果は、7027.68になりました。
残差平方和に関しては、「各テーマパークのアトラクション間の平方和の和」です。
もう表に書いてありますね。13549 + 7763. = 21312です。
③水準間平均平方和と残差平均平方和を求める。
これまでで分かったところを表に埋めてみましょう。結構分かってきましたね。
因子 | 平方和 | 自由度 | 平均平方和 | F値 |
水準 | 7027.68 | 1 | 必要 | ここを求めたい! |
残差 | 21312 | 10 | 必要 | ? |
全体 | ? | 11 | ? | ? |
各平均平方和は、「平方和を自由度で割ったもの」です。
よって、水準間平均平方和はそのまま7027.68で、残差平均平方和は2131.2です。
④F値を求める
7027.68/2131.2 = 3.297522‥です。
四捨五入して、3.30です。
補足:回帰分析におけるF値について
分散分析によるF値は、水準間平均平方和を、残差平均平方和で割った値です。
それぞれの平均平方和は、データ数で割るのではなく、自由度で割ります。
よって、以下のようになります。
$$Fvalue = \frac{水準間平均平方和}{残差平均平方和}$$
回帰分析の文脈で言えば、F値は説明変数のうち少なくとも一つが目的変数の役にたつかどうかを判定するための指標です。
一方、t値は個々の説明変数がいるかいらないかを判断するための指標です。
分散分析に関する他の記事は以下になります!
補足|F分布について
分散分析で使うF統計量は、F分布という二つの自由度パラメータによって形が変わる確率分布に従います。
$${Fvalue \sim F(a,b)}$$
F分布をはじめ、カイ二乗分布やt分布は標本に関する分布と呼ばれ、確率密度関数を覚えるというよりも、
- 統計量がどんな形を持つのか、
- どんなパラメータが形状を決定するのか、
- どんな検定で使われるのか、
という部分を理解する方が重要です。
ここでは、分散分析の文脈で、F分布について深掘りをしたいと思います。
上でお話しした通り、F統計量は、水準間平均平方和を、残差平均平方和で割った値です。
それぞれの平均平方和は、データ数で割るのではなく、自由度で割ります。
よって、以下のようになります。
$$Fvalue = \frac{水準間平均平方和}{残差平均平方和}=\frac{\frac{2.106}{3}}{\frac{0.7136}{14}}=13.77$$
一般化すると下のようになります。
$$Fvalue=\frac{\frac{SSB}{df_{between}}}{\frac{SSW}{df_{within}}}\sim F(df_{between},df_{within})$$
カイ二乗分布とF分布の関わりについて解説します。
まず、カイ二乗分布に従う独立な二つの確率変数$${U,V}$$があるとします。
$${U\sim \chi^2(p),V\sim \chi^2(q)}$$
それぞれパラメータ(自由度)は、$${p,q}$$としています。
この時、カイ二乗統計量を自由度でスケーリングした比$${X}$$は自由度$${p,q}$$のF分布に従うと言われます。
$${X=\frac{\frac{U}{p}}{\frac{V}{q}}\sim F(p,q)}$$
なので、分散分析の話に戻ると、群間平方和 (SSB) は、群の平均が全体の平均からどれだけ離れているかを示し、これがカイ二乗分布に従います。
これは、各群の平均もまた正規分布に従うためです。
同様にして、群内平方和 (SSW) は、各データポイントがその群の平均からどれだけ離れているかを示し、この分布もカイ二乗分布に従います。
これは、データポイントが各群内で正規分布に従うという仮定によります。
このように、ANOVAの論理構造は、結局データの正規分布仮定に強く依存しています。