【統計検定】偏相関係数の概念と計算方法 – 多変量解析の基礎
こんにちは、青の統計学です!
今回は、偏相関係数 について解説します。
相関係数よりも、より変数間の因果関係に踏み込んだ議論ができます。
相関係数については、こちらのコンテンツをご覧ください。
偏相関係数
偏相関係数は、他の変数の影響を除去した上で、2つの変数間の純粋な相関関係を測定する指標です。
当然モチベーションとなるのは、変数間の相関関係をより精度高く分析するためです。
まず、単純相関係数と偏相関係数の違いを理解することが重要です。
単純相関係数は、2つの変数間の線形関係の強さを測定します。
しかし、この値には他の変数の影響が含まれている可能性があります。
一方、偏相関係数は、他の変数の影響を統計的に除去した上で、2つの変数間の純粋な相関関係を示します。
$${r_{xy|z}=\frac{r_{xy}-r_{xz}*r_{yz}}{\sqrt{1-r_{xz}}\sqrt{1-r_{yz}}}}$$
偏相関係数とは、${x}$と${y}$の相関を求める際に他の変数$${z}$$の影響を取り除いた残差の相関を計算しています
異なる事象を同じ事象で回帰させた時に、交絡を回避できる〜という文脈で取り上げられます。
例えば、年齢、収入、教育レベルなど、複数の変数がある場面で、年齢と収入の関係性を、教育レベルの影響を取り除いて評価したい場合などに使用します。
普通の相関係数と偏相関係数に大きな差がある場合に、他の変数による交絡があると言えますね。
深掘りポイントとしては、以下のような多重共線性などの議論に繋がります。
多変量正規分布との関係
偏相関係数の理論的背景は、多変量正規分布と関連があります。
$n$次元の確率変数$\boldsymbol{X}=(X_1,X_2,\ldots,X_n)$が多変量正規分布$\mathcal{N}(\boldsymbol{\mu},\boldsymbol{\Sigma})$に従うとします。
$\boldsymbol{\mu}$は平均ベクトル、$\boldsymbol{\Sigma}$は共分散行列です。
$X_i$と$X_j$の偏相関係数$\rho_{ij\cdot 123\cdots(i-1)(i+1)\cdots(j-1)(j+1)\cdots n}$は、他のすべての変数の影響を除去した後の$X_i$と$X_j$の相関係数です。
多変量正規分布については、こちらがおすすめです。
偏相関係数の計算方法を理解するために、まず共分散行列の構造を見てみましょう。
$n$次元の確率変数$\boldsymbol{X}=(X_1,X_2,\ldots,X_n)$が多変量正規分布$\mathcal{N}(\boldsymbol{\mu},\boldsymbol{\Sigma})$に従う場合、共分散行列$\boldsymbol{\Sigma}$は以下のように表せます。
$$
\boldsymbol{\Sigma}=
\begin{pmatrix}
\sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\
\sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn}
\end{pmatrix}
$$
ここで、$\sigma_{ij}=\mathrm{Cov}(X_i,X_j)$は$X_i$と$X_j$の共分散です。
対角成分$\sigma_{ii}$は$X_i$の分散$\mathrm{Var}(X_i)$に相当します。
さて、$X_i$と$X_j$の偏相関係数$\rho_{ij\cdot 123\cdots(i-1)(i+1)\cdots(j-1)(j+1)\cdots n}$は、他のすべての変数の影響を除去した後の$X_i$と$X_j$の相関係数です。
つまり、$X_i$と$X_j$以外の変数$X_1,\ldots,X_{i-1},X_{i+1},\ldots,X_{j-1},X_{j+1},\ldots,X_n$が既知のときの$X_i$と$X_j$の条件付き相関係数となります。
この条件付き相関係数を計算する方法は、以下の通りです。
まず、$X_i$と$X_j$の条件付き分散$\mathrm{Var}(X_i\mid X_1,\ldots,X_{i-1},X_{i+1},\ldots,X_n)$と$\mathrm{Var}(X_j\mid X_1,\ldots,X_{j-1},X_{j+1},\ldots,X_n)$を求めます。
これらは、共分散行列$\boldsymbol{\Sigma}$の余因子行列から計算できます。
例えば、$\mathrm{Var}(X_1\mid X_2,X_3,\ldots,X_n)$は、$\boldsymbol{\Sigma}$の$(1,1)$要素から、第1行と第1列を除いた余因子行列の逆行列の$(1,1)$要素を引いたものになります。
次に、$X_i$と$X_j$の条件付き共分散$\mathrm{Cov}(X_i,X_j\mid X_1,\ldots,X_{i-1},X_{i+1},\ldots,X_{j-1},X_{j+1},\ldots,X_n)$を求めます。
これは、$\boldsymbol{\Sigma}$の$(i,j)$要素から、第$i$行と第$j$列を除いた余因子行列の逆行列の$(i,j)$要素を引いたものになります。
条件付き分散と条件付き共分散が分かれば、$X_i$と$X_j$の偏相関係数$\rho_{ij\cdot 123\cdots(i-1)(i+1)\cdots(j-1)(j+1)\cdots n}$は、以下の式で計算できます。
$$\begin{align*}
\rho_{ij\cdot 123\cdots(i-1)(i+1)\cdots(j-1)(j+1)\cdots n} &= \frac{\mathrm{Cov}(X_i,X_j\mid X_1,\ldots,X_{i-1},X_{i+1},\ldots,X_{j-1},X_{j+1},\ldots,X_n)}{\sqrt{\mathrm{Var}(X_i\mid X_1,\ldots,X_{i-1},X_{i+1},\ldots,X_n)\mathrm{Var}(X_j\mid X_1,\ldots,X_{j-1},X_{j+1},\ldots,X_n)}} \\
&= \frac{\sigma_{ij}-\sum_{k\neq i,j}\sigma_{ik}\sigma_{jk}/\sigma_{kk}}{\sqrt{(\sigma_{ii}-\sum_{k\neq i}\sigma_{ik}^2/\sigma_{kk})(\sigma_{jj}-\sum_{k\neq j}\sigma_{jk}^2/\sigma_{kk})}}
\end{align*}$$
この式は、共分散行列$\boldsymbol{\Sigma}$の要素から直接計算できることが分かります。
具体例を見てみる
例えば、$3$次元の多変量正規分布$\mathcal{N}(\boldsymbol{0},\boldsymbol{\Sigma})$において、共分散行列が
$$
\boldsymbol{\Sigma}=
\begin{pmatrix}
1 & 0.5 & 0.3 \\
0.5 & 1 & 0.6 \\
0.3 & 0.6 & 1
\end{pmatrix}
$$
とします。
このとき、$X_1$と$X_2$の偏相関係数$\rho_{12\cdot 3}$は、
$$\begin{align*}
\rho_{12\cdot 3} &= \frac{0.5-0.3\times 0.6/1}{\sqrt{(1-0.3^2/1)(1-0.6^2/1)}} \\
&= \frac{0.32}{\sqrt{0.91\times 0.64}} \\
&\approx 0.435
\end{align*}$$
と計算できます。
一方、単純相関係数$\rho_{12}=0.5$なので、$X_3$の影響を除去すると$X_1$と$X_2$の相関関係がより強くなることが分かります。
このように、偏相関係数は変数間の純粋な相関関係を捉えるため、重要な統計量となります。
多変量データ解析や経路解析などの分野で幅広く利用されています。