【共変量の罠】シンプソンのパラドクスについて
「相関関係はあるけど、因果関係があるとは限らない」ということは、統計学を学んでしつこく聞いてきたでしょう。今回は、ある種「因果はあるが、相関がなく見えてしまう」という「シンプソンのパラドクス」について解説いたします。
パラドクスとは、「逆説」と言い、推論とは逆の受け入れ難い結論のことです。
数式的な解説をするつもりはないので、楽しんでみていただけたら幸いです。
また統計検定2級でよく出てくる「層別分析」についても触れます。学習に使っていただければと思います。
統計検定2級はこちら→【最短】統計検定2級合格ロードマップとチートシート
シンプソンのパラドクス
<例1> 全体の人数が180名の,A高校とB高校で補習プログラムを実施しました。参加は任意です。 そして1ヶ月後に、同じ内容のテストを同じ時期に実施しました。 それぞれの得点は、以下の通りになります。 この時、「補習にはテストの点数を上げる効果がなかった」と言えるでしょうか? *補習の時間やクオリティはどちらも全く等しいとします。
A高校の平均点 | B高校の平均点 |
60点 | 60点 |
答えは、「必ずしも同じとは言えない」となります。例えば、以下の表をご覧ください。
A高校 | 人数 | 平均点 |
補習有 | 100 | 80 |
補習無 | 80 | 35 |
B高校 | 人数 | 平均点 |
補習有 | 60 | 68 |
補習無 | 120 | 56 |
このように、高校全体では平均点は60点ですが、補修を受けた人と受けてない人のの平均点は全く異なることがわかります。
一番最初の「補習の有無の人数」という共変量を無視して分割表を作ったことで、「補習を受けた人の方が得点が高いという」傾向が見えなくなったことがわかります。
共変量とは、結果とともに変わる変数のことで、説明変数(回帰分析でいう右辺のX)と同じ扱いで構いません。
【point①】共通原因となる共変量は、因果効果との識別のために層別する必要があります。
<例1>でいう共通原因とは、補習の有無それぞれの人数です。
【point②】シンプソンのパラドクスは、
①共変量で層別した表
②共変量を無視して作った表
では、傾向が変化しうることを示しています。
*注意
補習を受けた人の方が得点が高いという傾向はあっても、補習によって得点が上がったとは言えません。
「補習を受ける人」ような人は、元から勉強熱心で、補習を受けなくてもある程度得点が高い可能性があります。
本当に補習の因果関係を確かめたいなら、「補習を受ける人をランダムに選ぶ」ことが必要になります。計量経済学の分野では、RCT(ランダム比較化実験)と呼びます。
層別分析(Stratified Analysis)
統計検定2級でよく出る「層別分析」の紹介です。
結果に影響を与えそうな原因をカテゴリーに分け、標本の集団を分けて集計することです。
単純なランダムサンプリングに対して、調査対象が大きかったり、母集団が明らかなに性格の異なる複数の層から構成されている場合には層別分析が利用されています。
結果に影響を与える原因を、「層別因子」と呼びます。
最終的に統合した一つの分割表を出力させます。
この点において、複数の分割表を作るサブグループ分析とは異なります。
<例2> とは言いつつ、先ほどの例と全く同じ状況を想定します。 C高校とD高校に同じ補習とテストを実施させます。 以下の表を見たときに、 C高校のテストの平均点は、D高校のテストの平均点よりも高いと言えるでしょうか?
C高校 | 平均点 |
補習あり | 70 |
補習なし | 40 |
D高校 | 平均点 |
補習あり | 60 |
補習なし | 35 |
答えは、「必ずしもそうとは言えない」です。
補習ありも補習なしも、どちらも平均点ではC高校が高いのになぜでしょうか?
ヒントは人数と加重平均です。
以下の表をご覧ください。
C高校 | 人数 | 平均点 |
補習あり | 60 | 70 |
補習なし | 120 | 40 |
D高校 | 人数 | 平均点 |
補習あり | 120 | 60 |
補習なし | 60 | 35 |
C高校全体の平均点は約49点で、D高校全体の平均点は約54点でした。元の仮説とは異なり、「D高校の方が平均点が高い」となりました。
人数でわかる通り、
・C高校は、比較的点数の低い「補習無し」の集団の人数が多い→集団全体では点数は低くなる傾向に。
・D高校は、比較的点数の高い「補習有り」の集団の人数が多い→集団全体では点数は高くなる傾向に。
となります。
これは、「補習を受けた」共通結果である「平均点」で層別した結果、見せかけの相関が生まれてしまっている例です。(point③)
【point②続き】
2つの集団である仮説が成立しても、集団全体では正反対の結論が生まれかねない。
まとめ
【point①】共通原因となる共変量は、因果効果との識別のために層別する必要がある。
【point②】シンプソンのパラドクスとは、
・2つの集団である仮説が成立しても、集団全体では正反対の仮説の方が成立しうる。
・共変量を無視した分割表と、共変量で層別した分割表では、傾向が変化しうる。
【point③】共通結果とのなる共変量で識別すると、見せかけの相関を生み出してしまう。
全体での相関と、部分ごとの相関が逆になってしまうという現象でした。
全体の結果と部分ごとは必ずしも一致しないということは心に留めておくと良いかもしれません。
身近な例として、データでは世帯収入を持っている家庭の方が子供を持つ傾向にあるのに、都道府県別の平均年収でみると一番高い東京都よりもかなり低めの沖縄県の方が出生数や世帯あたりの子供の数が多かったりします。
比較する対象を変えるだけで全く逆の結果を生むことはよくあることで、東京都の中で見ると島嶼部を除けば千代田区や港区などの世帯あたりの平均年収が高い地区の方が足立区や杉並区よりも世帯あたりの子供の数が多いです。
比較する対象の背景に違いはないか、バイアスがかかっていないかなどの観点が必要です。
わざわざ関心のない分け方で分類をしてしまうと、変な解釈が生まれてしまうということですね。
統計学は便利なツールですが、表やグラフの作成者の意図によって簡単に人を騙せてしまうツールでも有ります。
正しい知識をつけて、批判的な視点で統計情報を見ていきたいものです。