【統計検定】偏相関係数の概念と計算方法 – 多変量解析の基礎
こんにちは、青の統計学です!
今回は、偏相関係数 について解説します。
相関係数よりも、より変数間の因果関係に踏み込んだ議論ができます。
相関係数については、こちらのコンテンツをご覧ください。
偏相関係数
偏相関係数は、他の変数の影響を除去した上で、2つの変数間の純粋な相関関係を測定する指標です。
当然モチベーションとなるのは、変数間の相関関係をより精度高く分析するためです。
まず、単純相関係数と偏相関係数の違いを理解することが重要です。
単純相関係数は、2つの変数間の線形関係の強さを測定します。
しかし、この値には他の変数の影響が含まれている可能性があります。
一方、偏相関係数は、他の変数の影響を統計的に除去した上で、2つの変数間の純粋な相関関係を示します。
偏相関係数とは、
異なる事象を同じ事象で回帰させた時に、交絡を回避できる〜という文脈で取り上げられます。
例えば、年齢、収入、教育レベルなど、複数の変数がある場面で、年齢と収入の関係性を、教育レベルの影響を取り除いて評価したい場合などに使用します。
普通の相関係数と偏相関係数に大きな差がある場合に、他の変数による交絡があると言えますね。
深掘りポイントとしては、以下のような多重共線性などの議論に繋がります。
多変量正規分布との関係
偏相関係数の理論的背景は、多変量正規分布と関連があります。
多変量正規分布については、こちらがおすすめです。
偏相関係数の計算方法を理解するために、まず共分散行列の構造を見てみましょう。
ここで、
対角成分
さて、
つまり、
この条件付き相関係数を計算する方法は、以下の通りです。
まず、
これらは、共分散行列
例えば、
次に、
これは、
条件付き分散と条件付き共分散が分かれば、
この式は、共分散行列
具体例を見てみる
例えば、
とします。
このとき、
と計算できます。
一方、単純相関係数
このように、偏相関係数は変数間の純粋な相関関係を捉えるため、重要な統計量となります。
多変量データ解析や経路解析などの分野で幅広く利用されています。