【統計検定2級で最も厄介(主観)】分散分析を解説します②

さて、前回の記事に続いて分散分析を解説していきます。見ていない方は、是非ご確認ください。

記事1:【統計検定2級で最も手強い(主観)】分散分析について解説します①

まずはおさらいからです。

統計検定では、「分散分析」というものがよく出ます。「自由度」や「残差平方和」などの知識が必要で厄介です。

分散分析とは

分散分析とは、「データ全体の平均値からの各データのズレ」を以下の2つの要素に分解する手法です。

2グループの平均を比較するt検定とは違い、3グループ以上の水準の平均を比較する手法です。

①水準間平方和:データ全体の平均値からの各水準の平均値のずれ(本当に知りたい方)

②残差平方和:それ以外のずれ(各水準の平均値から各データのずれ)

これをざっくりと理解してから、例題を解いていきましょう。

【例題1】次の表は、2021年度にテーマパークAとテーマパークBのアトラクション別年間来場者数をまとめたものです。単位は万人。

各テーマパーク内において、入場者数は独立で同一の分布に従い、かつ2つのテーマパークの年間入場者数の分散は等しいとみなします(等分散の仮定)。両テーマパークの年間入場者数の母平均には差があるのかどうかを調べたいです。

starlandseaskyearthspace平均偏差平方和
218303198296201186233.713,549
テーマパークAのアトラクション別年間入場者数
redbluegreenyellowwhiteblack平均偏差平方和
209177167145161253185.37,763
テーマパークBのアトラクション別年間入場者数

(1)2つの母平均に差に関するt検定を行います。t値を求めてみましょう。小数第3位を四捨五入してください。

(2)同様の帰無仮説・対立仮説に対して,一元配置分散分析を行うことを考えます。一元配置分散分析におけるF-値を求めてみましょう。小数第3位を四捨五入してください。

【解説】

(1)この問題は分散分析とはあんまり関係ないですが、2標本のt検定という結構高度な知識が必要な問題でした。

2標本問題におけるt値は以下のようにして計算できます。

①分子の2標本の平均の差を求める

これはそのまま表に書いている数字の差を取れば良いので簡単ですね。233.7-185.3 = 48.4です。

②1/Naと1/Nbの確認

テーマパークAとテーマパークBのそれぞれのサンプル数なので、どちらも6です。1/6 + 1/6 = 1/3です。

③2標本をプールした分散を求める

「プールした」とは、「加重平均を取った」と考えていただければOKです。

不偏分散なので、ちゃんとサンプル数から1を引いてあげる必要があります。

まずは、それぞれの不偏分散を求めてあげましょう。

④テーマパークAの不偏分散を求める

ここで漸く偏差平方和が使えそうですね。テーマパークAの偏差平方和は、13,549でNα – 1 = 5なのでテーマパークAの不偏分散は、2,709.8です。
しつこいですが、不偏分散はサンプル数から1を除いてください。

⑤同じようにテーマパークBの不偏分散を求める

テーマパークBの偏差平方和は、7,763でNb-1 = 5なので、テーマパークBの不偏分散は、1,550.6です。

⑥2標本をプールした不偏分散を求める。

③の式に代入してあげましょう。計算すると、分子は21,302で分母は10より、プールした不偏分散は2,130.2です。

⑦t値を求める

先ほどのt値の式に代入すると、分母は26.647で、分子は48,4より答えは1.81633‥となります。四捨五入して1,82です。

(2)難問です。

丁寧にみていきましょう。

そもそも結論であるF値には、何が必要なのでしょうか

F値とは、「残差平均平方和に対して水準間平均平方和がどのくらい大きいか」を測る指標です。前回の記事でも記載した通り、興味があるのは「水準間」です。この問題でいう「水準間」とは、「テーマパーク間の差」です。

前回の記事はこちらから。【統計検定2級で最も手強い(主観)】分散分析について解説します①

以上から、F値はこのように表すことができます。分散分析表を作るとわかりやすそうですね。

因子平方和自由度平均平方和F値
水準必要必要必要ここを求めたい!
残差必要必要必要?
全体????
求めたいのは当然、水準のF値です。

①自由度を求めてみましょう。

これは前回の記事でも勉強しました。

水準間の自由度は、水準のサンプル数から1を引いたもの。テーマパークの数2から1をひいた1です。

全体の自由度は、行数×列数-1です。2(テーマパーク数)×6(アトラクションの数)-1 より11です。

残差の自由度は、全体の自由度から水準間の自由度を除いたものです。よって11-1で10です。

②水準間平方和と残差平方和を求めてみましょう。

個人的には、ここが一番難しいです。目的を明確にしないと何をして良いかわからないからです。とにかく目的は、「テーマパーク間の年間入場者数には差があるのか」です。なので、12個のアトラクションの入場者数の平均から、各テーマパークの平均を引いたものが必要です。

12個のアトラクションの入場者数の平均は、(233.7 + 185.3)/2 = 209.5となりました。

この平均に対して、各テーマパークの平均はどのくらい違うでしょうか?(2乗するのでマイナスでもokです)

テーマパークA:233.7 – 209.5 = 24.2
テーマパークB:185.3 – 209.5 = -24.2

当然ですが、各テーマパークの平均のちょうど間を取った値になります。ここから平方して和(6をかける)を取りましょう。

結果は、7027.68になりました。

残差平方和に関しては、「各テーマパークのアトラクション間の平方和の和」です。
もう表に書いてありますね。13549 + 7763. = 21312です。

③水準間平均平方和と残差平均平方和を求める。

これまでで分かったところを表に埋めてみましょう。結構分かってきましたね。

因子平方和自由度平均平方和F値
水準7027.681必要ここを求めたい!
残差2131210必要?
全体?11??
求めたいのは当然、水準のF値です。

各平均平方和は、「平方和を自由度で割ったもの」です。

よって、水準間平均平方和はそのまま7027.68で、残差平均平方和は2131.2です。

④F値を求める

7027.68/2131.2 = 3.297522‥です。四捨五入して、3.30です。

次回は、Rを使った分散分析でさらに理解を深めましょう。

【統計検定2級】Rで分散分析を実践(F検定もやります)

検定の多重性を理解したい方はこちらをどうぞ。

【統計検定準一級】分散分析による検定の多重性について

-Udemy-のご紹介

データサイエンスやプログラミングに興味がある方におすすめなのが、Udemyと呼ばれる世界最大級のオンライン学習プラットフォームです。

Udemyは、世界中の学びたい人と教えたい人をオンラインでつなぐサービスです。

つまり、講師は企業ではなく、一般のエンジニアやデータサイエンティスト、デザイナーです。

講座カテゴリー

  • Pythonなど、機械学習プログラミング言語
  • Javaなど、Webアプリケーション言語
  • Webデザイン(HTML&CSS/JavaScript)
  • Excel
  • マーケティング

特に最近ではAI・データサイエンスなど先端ITの講座が人気を博しております。気になる方は以下のボタンからご覧ください。

ジャンルが豊富で学びたい講座がきっとみつかる

受講者数講師数講座数
4,000万人70,000人約18.5万
2021年3月時点(Udemy)

世界中にサービスを展開しているため、サービスの規模は非常に大きいです。

AI・データサイエンスなど最先端のIT技術からプレゼンなどビジネススキルに関する講座まで 18.5万以上(※海外講座含む)あるため、自分が学びたい講座をみつけることができます。

きっとピッタリな講座が見つかるでしょう!

講座は、PC一台があればカフェでも学校でも職場でも受講することができます。

また倍速対応ができ、0.5〜2倍の変速機能で自分のペースで受講が可能です。

お手頃な価格帯

講座により、価格は大きく変わりますが、数千円台のものも多く、手を出しやすいです。

講座は一度購入すれば視聴期限なく受講でき、30日返金保証もついているので安心して始めることができます

こんな方におすすめ!

  • Webデザイナーになって、自由な生活を手に入れたい方。
  • プログラマーになって、本業以外の副収入を得たい方。
  • 自学自習じゃなかなか続かない方。
  • 資格習得や、スキルの向上により、今の年収をupさせたい方。

具体的には、以下のようなコースがあります。きっと良い講師に出会えるはずです。

FOLLOW ME !

PAGE TOP