【高校生向け】データの活用の例題①(Lv共通テスト)
高校数学で対策が手薄になりやすい「データの活用」の例題を紹介していきます。公式を紹介するだけでは、すぐに忘れてしまうと思うので実際の問題を通して理解していきましょう。実際に10分程度考えてみて、わからなければ解説をみてください。
【例題】
以下は、令和2年度の都道府県別の高卒者の状況を表しています。大学や専門学校に進学する場合は「就学」、民間企業に就職する場合は「就職」としています。横軸をX、縦軸をYとみなします。
(1)以下の表を参考にして、就学率Xの標準偏差(小数第二位まで四捨五入)を求めてみましょう。
(2)以下の表を参考にして、Xの平均値の2乗を求めてみましょう。
X2の平均値 | Yの平均値 | Yの標準偏差 | XとYの共分散 | XとYの相関係数 |
2775.83 | 18.14 | 5.60 | -20.24 | -0.56 |
【解説】
(1)これは相関係数を求める式がわかっていればできます。
$$相関係数=\frac{共分散}{xの標準偏差×yの標準偏差}$$
では計算してみましょう。
$$-0.56=\frac{-20.24}{5.60x}$$
計算すると0.1549‥となりました。小数第二位まで四捨五入すると答えは0.16です。
(2)(1)で出した解答を使います。手順としては、「Xの標準偏差から分散を求める→分散を求める公式から平均の二乗を求める」
標準偏差を二乗すると分散が出せます。よってXの分散は0.16×0.16で0.0256ですね。また、分散s2は以下のように計算できます。
$$s^2=\frac{u_{1}^2+u_{2}^2+…+u_{n}^2}{n}-(\overline{u})^2$$
わかりやすく日本語で表すとこうなります。
$$分散=xの2乗の平均-xの平均の2乗$$
実際に当てはめてみると、\(0.0256 = 2775.83 – (Xの平均の2乗)\)となります。答えは2775.8044となり、小数第二位まで四捨五入すると2775.80です。
この問題どうやって作ったの?
令和2年度文部科学省の「学校基本調査」を参考にしています。
都道府県ランキングとしてはどのようになっているのでしょうか。就学率が高い順に並べています。
就学率 | 就職率 | |
京都 | 67.80% | 7.82% |
東京 | 66.60% | 5.55% |
兵庫 | 62.50% | 13.36% |
大阪 | 61.80% | 11.00% |
広島 | 61.30% | 15.03% |
神奈川 | 60.90% | 6.49% |
奈良 | 59.90% | 6.42% |
愛知 | 59.00% | 20.39% |
埼玉 | 58.50% | 8.89% |
山梨 | 57.00% | 16.35% |
福井 | 56.90% | 22.88% |
滋賀 | 56.50% | 18.47% |
石川 | 56.40% | 22.63% |
岐阜 | 56.10% | 18.80% |
千葉 | 56.00% | 10.03% |
富山 | 55.30% | 25.97% |
香川 | 55.10% | 19.07% |
福岡 | 53.90% | 15.32% |
徳島 | 53.80% | 19.47% |
静岡 | 53.40% | 22.88% |
愛媛 | 53.20% | 18.27% |
群馬 | 53.00% | 19.88% |
高知 | 52.50% | 13.36% |
栃木 | 51.90% | 21.15% |
岡山 | 51.80% | 22.96% |
和歌山 | 51.50% | 18.06% |
茨城 | 51.40% | 20.42% |
三重 | 51.10% | 26.57% |
宮城 | 50.00% | 19.56% |
長野 | 49.10% | 18.38% |
大分 | 48.80% | 21.53% |
新潟 | 48.40% | 19.10% |
北海道 | 47.70% | 20.86% |
青森 | 46.60% | 16.64% |
熊本 | 46.40% | 16.06% |
長崎 | 46.10% | 19.01% |
山形 | 46.10% | 23.70% |
福島 | 45.80% | 27.57% |
鳥取 | 45.40% | 22.25% |
岩手 | 45.20% | 20.91% |
島根 | 45.10% | 20.79% |
秋田 | 45.00% | 23.66% |
宮崎 | 44.90% | 18.09% |
山口 | 44.30% | 29.28% |
佐賀 | 43.60% | 20.60% |
鹿児島 | 43.50% | 15.33% |
沖縄 | 40.80% | 11.95% |
グラフを作ったRコードはこのようになっています。
par(family = "HiraKakuProN-W3")
x<-scan("school.csv")
y<-scan("hire.csv")
plot(x,y,xlim = c(35,80),ylim=c(0,40),main="令和2年度都道府県別高卒者の状況",xlab="就学率(%)",ylab="就職率(%)")
par(family = “HiraKakuProN-W3”)がなければ日本語表記できないので注意してください。
xlimとylimで縦軸と横軸の範囲を指定しています。今回はプロットが見やすいように調整しました。
各値の計算については以下のコードをご確認ください。
mean(y)
#yの平均値
cov(x,y)
#不偏共分散(n-1でわる)
var(y)
#不偏分散
sqrt(var(y))
#不偏標本分散
mean(x^2)
#x^2の平均値
cor(x,y)
#相関係数
実はRのコードでは、分散や共分散を求める際にn(高校で習う)ではなくn-1で割った値が出ています。これは、「不偏性」という大事な前提を置くためです。詳しくはこちらの記事をご確認ください。