共分散と相関係数をわかりやすく解説 – 2変数間の関係性を測る指標
こんにちは、青の統計学です!
今回は、相関係数と共分散 について解説します。
高校でも習うと思いますが、しっかりと定義を理解できているでしょうか?
大学以降は、多変量版も考える必要があるのでこの記事を機会に勉強してみてください。
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!
相関係数と共分散
相関係数と共分散は、2つの確率変数間の線形の関係性を捉えるための重要な概念です。
期待値と分散についての知識があると良いので、よくわからない方はこちらをどうぞ!!
共分散
まず共分散について説明します。
2つの確率変数$X$と$Y$の共分散は、以下の式で定義されます。
$$\operatorname{Cov}(X, Y) = \mathbb{E}[(X – \mathbb{E}[X])(Y – \mathbb{E}[Y])]$$
ここで$\mathbb{E}[\cdot]$は期待値を表します。
共分散は、$X$と$Y$がともに平均からどれだけ離れているかを測る尺度です。
当然ですが、$X$と$Y$が正の相関関係にある場合、共分散は正の値をとります。
一方、$X$と$Y$が負の相関関係にある場合、共分散は負の値をとります。
ちなみに独立な確率変数の共分散は0になります。
例えば、$X$と$Y$が正規分布$\mathcal{N}(\mu_X, \sigma_X^2)$と$\mathcal{N}(\mu_Y, \sigma_Y^2)$に従うとしましょう。
この場合、共分散は以下のように計算できます。
\begin{align*}
\operatorname{Cov}(X, Y) &= \mathbb{E}[(X – \mu_X)(Y – \mu_Y)] \\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x – \mu_X)(y – \mu_Y) \frac{1}{2\pi\sigma_X\sigma_Y} \exp\left(-\frac{1}{2}\left(\frac{(x – \mu_X)^2}{\sigma_X^2} + \frac{(y – \mu_Y)^2}{\sigma_Y^2}\right)\right) \mathrm{d}x \mathrm{d}y \\
&= 0
\end{align*}
つまり、$X$と$Y$が正規分布に従い、互いに独立であれば共分散は0になります。
相関係数
さて、共分散のデメリットとしては、$X$と$Y$のスケールが反映されないということですね。
そこで、相関係数が導入されました。
相関係数は、共分散を$X$と$Y$の標準偏差で正規化したものです。
つまり、
$$\rho(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X]}\sqrt{\operatorname{Var}[Y]}}$$
$$\begin{align*}
\rho(X, Y) &= \frac{\mathbb{E}[(X – \mathbb{E}[X])(Y – \mathbb{E}[Y])]}{\sqrt{\mathbb{E}[(X – \mathbb{E}[X])^2]}\sqrt{\mathbb{E}[(Y – \mathbb{E}[Y])^2]}} \\
&= \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X]}\sqrt{\operatorname{Var}[Y]}}
\end{align*}$$
相関係数の値は-1から1の範囲に収まります。
値の評価としては、共分散と被るっちゃ被るのですが
相関係数が1の場合は完全な正の相関、-1の場合は完全な負の相関を表します。
0の場合は無相関を意味します。
例として、$X$と$Y$が共に標準正規分布$\mathcal{N}(0, 1)$に従い、$Y = aX + b$の関係があるとしましょう。
この場合、相関係数は以下のように計算できます。
$$\begin{align*}
\rho(X, Y) &= \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X]}\sqrt{\operatorname{Var}[Y]}} \\
&= \frac{\operatorname{Cov}(X, aX + b)}{\sqrt{1}\sqrt{\operatorname{Var}[aX + b]}} \\
&= \frac{a\operatorname{Var}[X]}{\sqrt{1}\sqrt{a^2\operatorname{Var}[X]}} \\
&= \operatorname{sgn}(a)
\end{align*}$$
つまり、$a > 0$のとき$\rho(X, Y) = 1$、$a < 0$のとき$\rho(X, Y) = -1$となります。
これは、$X$と$Y$が完全な正の相関または完全な負の相関にあることを意味しています。
発展|多変量化した場合
やや発展的な内容です。
ここでは、線形代数の知識があるとわかり易いと思います。
多変量の場合、共分散行列と相関行列が使われます。
$n$次元確率ベクトル$\boldsymbol{X} = (X_1, X_2, \ldots, X_n)^{\top}$に対して、共分散行列$\boldsymbol{\Sigma}$は
$$\boldsymbol{\Sigma} = \begin{pmatrix}
\operatorname{Var}[X_1] & \operatorname{Cov}(X_1, X_2) & \cdots & \operatorname{Cov}(X_1, X_n) \\
\operatorname{Cov}(X_2, X_1) & \operatorname{Var}[X_2] & \cdots & \operatorname{Cov}(X_2, X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\operatorname{Cov}(X_n, X_1) & \operatorname{Cov}(X_n, X_2) & \cdots & \operatorname{Var}[X_n]
\end{pmatrix}$$
と表されます。
対角成分が分散、非対角成分が共分散です。
一方、相関行列$\boldsymbol{R}$は次のように定義されます。
$$\boldsymbol{R} = \begin{pmatrix}
1 & \rho(X_1, X_2) & \cdots & \rho(X_1, X_n) \\
\rho(X_2, X_1) & 1 & \cdots & \rho(X_2, X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\rho(X_n, X_1) & \rho(X_n, X_2) & \cdots & 1
\end{pmatrix}$$
相関行列の対角成分は常に1で、非対角成分が相関係数になっています。
共分散行列と相関行列は、主成分分析などの多変量解析によく利用されます。
まとめ
– 相関係数と共分散は、2つの確率変数間の線形関係を捉えるための指標
– 共分散 $\operatorname{Cov}(X, Y)$ は、2つの確率変数 $X$ と $Y$ がともに平均からどれだけ離れているかを測る。
$$\operatorname{Cov}(X, Y) = \mathbb{E}[(X – \mathbb{E}[X])(Y – \mathbb{E}[Y])]$$
– 共分散は確率変数のスケールに依存するため、相関係数が導入された。
– 相関係数 $\rho(X, Y)$ は、共分散を $X$ と $Y$ の標準偏差で正規化したもの。
$$\rho(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X]}\sqrt{\operatorname{Var}[Y]}}$$
– 相関係数の値は -1 から 1 の範囲にあり、1 は完全な正の相関、-1 は完全な負の相関、0 は無相関を表す。
– 多変量の場合、共分散行列 $\boldsymbol{\Sigma}$ と相関行列 $\boldsymbol{R}$ が使われる。