【統計検定】偏相関係数の概念と計算方法 – 多変量解析の基礎

こんにちは、青の統計学です!

今回は、偏相関係数 について解説します。

相関係数よりも、より変数間の因果関係に踏み込んだ議論ができます。

相関係数については、こちらのコンテンツをご覧ください。

偏相関係数

偏相関係数は、他の変数の影響を除去した上で、2つの変数間の純粋な相関関係を測定する指標です。

当然モチベーションとなるのは、変数間の相関関係をより精度高く分析するためです。

まず、単純相関係数と偏相関係数の違いを理解することが重要です。

単純相関係数は、2つの変数間の線形関係の強さを測定します。

しかし、この値には他の変数の影響が含まれている可能性があります。

一方、偏相関係数は、他の変数の影響を統計的に除去した上で、2つの変数間の純粋な相関関係を示します。

rxy|z=rxyrxzryz1rxz1ryz

偏相関係数とは、xyの相関を求める際に他の変数zの影響を取り除いた残差の相関を計算しています

異なる事象を同じ事象で回帰させた時に、交絡を回避できる〜という文脈で取り上げられます。

例えば、年齢、収入、教育レベルなど、複数の変数がある場面で、年齢と収入の関係性を、教育レベルの影響を取り除いて評価したい場合などに使用します。

普通の相関係数と偏相関係数に大きな差がある場合に、他の変数による交絡があると言えますね。

深掘りポイントとしては、以下のような多重共線性などの議論に繋がります。

多変量正規分布との関係

偏相関係数の理論的背景は、多変量正規分布と関連があります。

n次元の確率変数X=(X1,X2,,Xn)が多変量正規分布N(μ,Σ)に従うとします。

μは平均ベクトル、Σは共分散行列です。

XiXjの偏相関係数ρij123(i1)(i+1)(j1)(j+1)nは、他のすべての変数の影響を除去した後のXiXjの相関係数です。

多変量正規分布については、こちらがおすすめです。

偏相関係数の計算方法を理解するために、まず共分散行列の構造を見てみましょう。

n次元の確率変数X=(X1,X2,,Xn)が多変量正規分布N(μ,Σ)に従う場合、共分散行列Σは以下のように表せます。

Σ=(σ11σ12σ1nσ21σ22σ2nσn1σn2σnn)

ここで、σij=Cov(Xi,Xj)XiXjの共分散です。

対角成分σiiXiの分散Var(Xi)に相当します。

さて、XiXjの偏相関係数ρij123(i1)(i+1)(j1)(j+1)nは、他のすべての変数の影響を除去した後のXiXjの相関係数です。

つまり、XiXj以外の変数X1,,Xi1,Xi+1,,Xj1,Xj+1,,Xnが既知のときのXiXjの条件付き相関係数となります。

この条件付き相関係数を計算する方法は、以下の通りです。

まず、XiXjの条件付き分散Var(XiX1,,Xi1,Xi+1,,Xn)Var(XjX1,,Xj1,Xj+1,,Xn)を求めます。

これらは、共分散行列Σの余因子行列から計算できます。

例えば、Var(X1X2,X3,,Xn)は、Σ(1,1)要素から、第1行と第1列を除いた余因子行列の逆行列の(1,1)要素を引いたものになります。

次に、XiXjの条件付き共分散Cov(Xi,XjX1,,Xi1,Xi+1,,Xj1,Xj+1,,Xn)を求めます。

これは、Σ(i,j)要素から、第i行と第j列を除いた余因子行列の逆行列の(i,j)要素を引いたものになります。

条件付き分散と条件付き共分散が分かれば、XiXjの偏相関係数ρij123(i1)(i+1)(j1)(j+1)nは、以下の式で計算できます。

ρij123(i1)(i+1)(j1)(j+1)n=Cov(Xi,XjX1,,Xi1,Xi+1,,Xj1,Xj+1,,Xn)Var(XiX1,,Xi1,Xi+1,,Xn)Var(XjX1,,Xj1,Xj+1,,Xn)=σijki,jσikσjk/σkk(σiikiσik2/σkk)(σjjkjσjk2/σkk)

この式は、共分散行列Σの要素から直接計算できることが分かります。

具体例を見てみる

例えば、3次元の多変量正規分布N(0,Σ)において、共分散行列が

Σ=(10.50.30.510.60.30.61)

とします。

このとき、X1X2の偏相関係数ρ123は、

ρ123=0.50.3×0.6/1(10.32/1)(10.62/1)=0.320.91×0.640.435

と計算できます。

一方、単純相関係数ρ12=0.5なので、X3の影響を除去するとX1X2の相関関係がより強くなることが分かります。

このように、偏相関係数は変数間の純粋な相関関係を捉えるため、重要な統計量となります。

多変量データ解析や経路解析などの分野で幅広く利用されています。

FOLLOW ME !