【高校生向け】データの活用の例題②(Lv共通テスト)

高校数学で対策が手薄になりやすい「データの活用」の例題を紹介していきます。公式を紹介するだけでは、すぐに忘れてしまうと思うので実際の問題を通して理解していきましょう。実際に10分程度考えてみて、わからなければ解説をみてください。

今回は【高校生向け】データの活用の例題①(Lv共通テスト)に比べて少し難しいです。前回の記事と同じデータとグラフを扱っています。
平成31年度の共通テストの問題を参考にして作成しています。

【例題】(電卓必須)

以下は、令和2年度の都道府県別の高卒者の状況を表しています。大学や専門学校に進学する場合は「進学」、民間企業に就職する場合は「就職」としています。横軸をX、縦軸をYとみなします。

(1)以下の表を参考にしてXとYの相関係数rを求めてみましょう。小数第二位まで求めてください。

Xの平均値Yの平均値Xの分散Yの分散XとYの共分散
52.3018.1441.8831.32-20.24

(2)就学率Xの取る値をx、就職率Yの取る値をyとした時、以下のような「データの傾向」をみるための式が使われることがあります。ただし、Cov(X,Y)はXとYの共分散であり、Var(X)はXの分散を表します。

以上の式を使って、yを求める式をy=ax+bの形で表してみましょう。

(3)(2)の直線を引いてみました。進学率は30%から80%の間で同じ傾向がある」という仮定を置いた上で、進学率が60%の時の調整済み就職率yを求めましょう。

【解説】

(1)これは相関係数を求める式がわかっていれば簡単だったと思います。

Cov(X,Y)はXとYの共分散で、Var(X)はXの分散、Var(Y)はYの分散でした。

よって表から与えられた数値を代入して計算するだけで相関係数rを求めることができます。

電卓を使うとr=-0.5568となりました。小数第三位を四捨五入するとr=-0.56です。

(2)見慣れない式が出ましたが、表からわかる値を代入して、移行を繰り返すだけでこの問題は解くことができます。

こんな感じですかね。整理すると下のようになりました。こちらが答えとなります。

小数第三位は四捨五入しています

つまり、横軸の「進学率」を-0.48倍して、43.42を足すと縦軸の「就職率」に、大体なるのではないかということです。

(3)こちらは(2)で作った式のxに60を代入するだけです。

もちろん勝手に引いた直線なので実際の就職率yと調整済み就職率yは異なります。

ただ、進学率と就職率の関係を見るためには、この直線が必要であるということです。

y=-0.48×60 + 43.42 = 15.22

よって調整済み就職率は15.22%です。

CODE

abline(b=-0.48,reg=43.41,col="blue")

線の色は変えられます

図を再度上げます。このような回帰直線はRでは、ablineを使います。y=ax+bの形で指定します。

xの係数はb=の形で書きます。また、定数のbはreg=の形で書きます。

また、col=” “では””の値に入れる色によって回帰直線の色を変えることができます。

ぜひいろいろ直線を書いてみてください。

回帰式に興味が出てきた方へ

今回の(3)で出てきた式は「回帰式」というもので、データがどのような傾向があるのかを知るために「ざっくりと線を引いてみた」というものです。

ただ相関係数を見ているのではなく、一歩進んだ議論ができますね。

この問題は、大学で学ぶ統計学の入門のようなもので、とても価値があると思います。

ただ、この回帰式や相関係数で強い傾向が出たとしても、「進学率が高いから就職率が下がったんだ!」とはすぐに判断できません。

相関関係があることと因果関係があることは全くの別物です。

こうした考え方に興味が湧いた方は、「統計学」を勉強することをお勧めします。

こうした回帰式が実際どの程度当てはまりが良いかを数値化したものを「決定係数」と言います。

決定係数とは?説明変数の確らしさを図る指標の一つ。

FOLLOW ME !