シンプソンズのパラドクスとは？──「部分」と「全体」で逆転する統計の落とし穴

「相関関係はあるが、因果関係があるとは限らない」——統計を学ぶ方なら必ず耳にする言葉ですが、「因果はあるのに相関が消えてしまう」という、より厄介な現象も存在します。それがシンプソンズのパラドクス (Simpson’s Paradox) です。

シンプソンズのパラドクスとは、ある母集団全体から導いた結論と、母集団をサブグループ（層）に分けて分析した結論とが正反対になる現象を指します。

たとえば、「集団全体」だけを見るとある要因と結果に相関がないように見えても、サブグループ（層別した集団）ごとに見ると正の相関が見られる……という、いわば「逆説的」な事象ですね。

本記事では、シンプソンズのパラドクスがなぜ起こるのか、どのような例があるのか、そしてどう対処すべきかをわかりやすく解説していきます。統計検定2級でも頻出の「層別分析」にも触れますので、ぜひ学習の参考にしてください。

1. シンプソンズのパラドクスとは？

シンプソンズのパラドクスとは、「母集団全体で見る傾向 と、母集団を複数の層に分割した傾向 が逆転してしまう現象」です。
一見矛盾した結果に思えるかもしれませんが、その背後には「交絡因子（共変量）」という要素が潜んでいる場合が多いです。たとえば、平均値だけを見ると「どちらの治療法にも差がない」ように見えても、性別や年齢、あるいは重症度などで分類して集計すると「明らかに治療効果に差がある」ということがあります。

ポイント

シンプソンズのパラドクスでは「部分 vs. 全体」で結論が逆転する。
背景に「交絡因子」が潜んでいる場合が多い。

2. 具体例で学ぶシンプソンズのパラドクス

例1：高校の補習プログラムの効果は消える？

ストーリー

A高校とB高校の全体平均点は、ともに60点でした。両校で任意参加の補習を実施したところ、「補習を受けても受けなくても平均点が同じ＝60点。だから補習に効果はない」と判断してしまいがちです。しかし、両校それぞれをさらに「補習アリ」と「補習ナシ」で層別すると、次のような結果が得られました。

高校	人数	平均点
補習アリ	100	80
補習ナシ	80	35

A高校（例）

高校	人数	平均点
補習アリ	60	68
補習ナシ	120	56

B高校（例）

見てわかるとおり、補習を受けた人の方が明らかに高得点 です。最初に見た「全体の平均点（A校60点、B校60点）」だけでは、この事実が埋もれてしまっていたわけです。

ここから学べること

ポイント１

「補習の有無」という共変量を無視して分割表を作成すると、実際にはあった“補習効果”が見えなくなる。

ポイント2

シンプソンズのパラドクスの典型例：部分（層別）では正の相関があるが、全体では相関が消えてしまう。

もっとも、「補習を受けた人」はもともと勉強熱心で高得点を取る傾向がある かもしれません。真の因果関係を確かめるには、補習への参加がランダムに割り振られる RCT（ランダム比較化実験） のような手法が必要です。

例2：C高校よりD高校が成績上位に“見えてしまう”理由

もうひとつ別の高校を例に挙げます。C高校とD高校では補習アリ・ナシそれぞれの平均点を見ると、どちらもC高校が高得点でした。

C高校	平均点
補習アリ	70
補習ナシ	40

D高校	平均点
補習アリ	60
補習ナシ	35

一見「C高校の方が優秀じゃないか」と思いきや、全体の平均点ではC高校約49点、D高校約54点とD高校の方が高かったのです。
ここで注目すべきは、各グループ（補習アリ／ナシ）に偏っている人数 です。C高校は「補習ナシ」の人数が比較的多いため、全体平均に占める低得点層の割合が増えています。
逆にD高校は「補習アリ」の人数が多いため、高得点層が全体平均を押し上げています。つまり、「層別するとC高校が優れているように見えても、全体ではD高校が優れているように見える」というシンプソンのパラドクスが生じたわけです。

3. シンプソンズのパラドクスが生まれる原因：交絡因子（共変量）とは？

シンプソンズのパラドクスでよく登場するキーワードが「交絡因子（共変量）」 です。これは、

要因（原因変数） と結果（目的変数）
の両方に影響を与える変数のことを指します。
たとえば上記の例では、補習を受ける/受けないかという選択とテストの平均点の両方に「生徒数の偏り」や「生徒の学習意欲」などの共変量が影響を与えていました。

統計的には、「共変量を適切に層別することで、真の因果効果を見誤らずに済む可能性が高まる」と考えられています。これは、医学研究におけるランダム化比較試験（RCT）の発想とも通じるところです。

4. 統計検定2級でもおなじみの「層別分析」とは？

層別分析 (Stratified Analysis) とは、あらかじめ「結果に影響を与えそうな要因（層別因子）」で母集団をカテゴリーごとに分割し、各層ごとに集計・分析する方法です。母集団を機械的に無作為抽出（単純ランダムサンプリング）するのではなく、層ごとにサンプルを同じ割合で確保する「層化抽出法（Stratified Sampling）」も、同様の考え方に基づいています。

以下の記事がおすすめです。

層別分析の特徴

“まとめて分析”すると見落とす原因も、層別することで可視化される。
集団全体の平均値・相関だけでなく、層別した各集団の平均値・相関を比較することで、隠れた交絡因子の存在を推測できる。

5. 医療・社会調査における有名な事例

医学の例

医学分野では、ある治療法の効果を評価する際、男女の分布や重症度などが交絡因子になることがよくあります。例えば、腎結石治療で有名な事例では、「結石が小さい症例」と「結石が大きい症例」を分けて分析した結果と、両方を合わせた結果が真逆になったという報告があります。これは、“結石の大きさ”が治療法の選択と治療結果の両方に影響する交絡因子になっていたためです¹。

社会学の例

社会学では、就職率や平均年収を分析する際に見られます。たとえば、全体で見ると「平均年収の高い地域ほど子供の数が少ない」ように見えるのに、地域をさらに細かく区分すると「高収入家庭の方が子供の数が多い」という逆説的な結果が出ることもあります。これは、都市部（東京都心など）に生活コストやライフスタイルの偏りがあるため、都道府県全体の“平均年収”と“子供の数”の関係が歪んで見えるのです。

6. シンプソンズのパラドクスを回避するには？

適切な層別分析
- あらかじめ想定される交絡因子（年齢・性別・地域・学習意欲など）でデータを層に分割し、各層の結果を比較・検討します。
回帰分析の活用
- 多変量回帰分析や混合モデルを使い、交絡因子をコントロールする。層別分析を行うのが難しいときにも有効です。
因果推論の手法
- DAG（有向非巡回グラフ）やRCTなどを用いて、因果関係を明示的にモデル化し、交絡因子の調整を試みます。
研究デザインの改善
- 観察研究（オブザベーショナル・スタディ）では交絡因子の影響を受けやすいため、実験計画（RCT）や対照群の設定を工夫することが望ましいです。

7. まとめ：部分と全体、どちらも見据えた批判的思考を

シンプソンズのパラドクスが教えてくれるのは、「データの一部」と「データの全体」の両方を見ないと、真実を見誤る可能性がある ということです。
統計は強力なツールである一方、見せ方や集計の仕方、グラフの作り方次第で、人に誤解を与える結果を示すことも簡単にできます。
だからこそ、データを使った主張を見るときには「何が共変量（交絡因子）として存在し得るのか？」「本当に因果関係を示しているのか？」など、批判的な視点を持つことが非常に重要です。