【高校生向け】データの活用の例題①(Lv共通テスト)

高校数学で対策が手薄になりやすい「データの活用」の例題を紹介していきます。公式を紹介するだけでは、すぐに忘れてしまうと思うので実際の問題を通して理解していきましょう。実際に10分程度考えてみて、わからなければ解説をみてください。

【例題】

以下は、令和2年度の都道府県別の高卒者の状況を表しています。大学や専門学校に進学する場合は「就学」、民間企業に就職する場合は「就職」としています。横軸をX、縦軸をYとみなします。

(1)以下の表を参考にして、就学率Xの標準偏差(小数第二位まで四捨五入)を求めてみましょう。

(2)以下の表を参考にして、Xの平均値の2乗を求めてみましょう。

X2の平均値Yの平均値Yの標準偏差XとYの共分散XとYの相関係数
2775.8318.145.60-20.24-0.56

【解説】

(1)これは相関係数を求める式がわかっていればできます。

$$相関係数=\frac{共分散}{xの標準偏差×yの標準偏差}$$

では計算してみましょう。

$$-0.56=\frac{-20.24}{5.60x}$$

計算すると0.1549‥となりました。小数第二位まで四捨五入すると答えは0.16です。

(2)(1)で出した解答を使います。手順としては、「Xの標準偏差から分散を求める→分散を求める公式から平均の二乗を求める」

標準偏差を二乗すると分散が出せます。よってXの分散は0.16×0.16で0.0256ですね。また、分散s2は以下のように計算できます。

$$s^2=\frac{u_{1}^2+u_{2}^2+…+u_{n}^2}{n}-(\overline{u})^2$$

わかりやすく日本語で表すとこうなります。

$$分散=xの2乗の平均-xの平均の2乗$$

実際に当てはめてみると、\(0.0256 = 2775.83 – (Xの平均の2乗)\)となります。答えは2775.8044となり、小数第二位まで四捨五入すると2775.80です。

この問題どうやって作ったの?

令和2年度文部科学省の「学校基本調査」を参考にしています。

都道府県ランキングとしてはどのようになっているのでしょうか。就学率が高い順に並べています。

就学率就職率
京都67.80%7.82%
東京66.60%5.55%
兵庫62.50%13.36%
大阪61.80%11.00%
広島61.30%15.03%
神奈川60.90%6.49%
奈良59.90%6.42%
愛知59.00%20.39%
埼玉58.50%8.89%
山梨57.00%16.35%
福井56.90%22.88%
滋賀56.50%18.47%
石川56.40%22.63%
岐阜56.10%18.80%
千葉56.00%10.03%
富山55.30%25.97%
香川55.10%19.07%
福岡53.90%15.32%
徳島53.80%19.47%
静岡53.40%22.88%
愛媛53.20%18.27%
群馬53.00%19.88%
高知52.50%13.36%
栃木51.90%21.15%
岡山51.80%22.96%
和歌山51.50%18.06%
茨城51.40%20.42%
三重51.10%26.57%
宮城50.00%19.56%
長野49.10%18.38%
大分48.80%21.53%
新潟48.40%19.10%
北海道47.70%20.86%
青森46.60%16.64%
熊本46.40%16.06%
長崎46.10%19.01%
山形46.10%23.70%
福島45.80%27.57%
鳥取45.40%22.25%
岩手45.20%20.91%
島根45.10%20.79%
秋田45.00%23.66%
宮崎44.90%18.09%
山口44.30%29.28%
佐賀43.60%20.60%
鹿児島43.50%15.33%
沖縄40.80%11.95%

グラフを作ったRコードはこのようになっています。

par(family = "HiraKakuProN-W3")
x<-scan("school.csv")
y<-scan("hire.csv")
plot(x,y,xlim = c(35,80),ylim=c(0,40),main="令和2年度都道府県別高卒者の状況",xlab="就学率(%)",ylab="就職率(%)")

par(family = “HiraKakuProN-W3”)がなければ日本語表記できないので注意してください。

xlimとylimで縦軸と横軸の範囲を指定しています。今回はプロットが見やすいように調整しました。

各値の計算については以下のコードをご確認ください。

mean(y)
#yの平均値

cov(x,y)
#不偏共分散(n-1でわる)

var(y)
#不偏分散

sqrt(var(y))
#不偏標本分散

mean(x^2)
#x^2の平均値

cor(x,y)
#相関係数

実はRのコードでは、分散や共分散を求める際にn(高校で習う)ではなくn-1で割った値が出ています。これは、「不偏性」という大事な前提を置くためです。詳しくはこちらの記事をご確認ください。

【n-1】不偏分散を解説します。

FOLLOW ME !