多変量正規分布の確率密度関数と主な性質を解説|機械学習・統計学の基礎

こんにちは、青の統計学です!

今回は、多変量正規分布 について解説します。機械学習、統計的推論で幅広く利用される基礎的な分布ですので、数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。

青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。

ぜひ以下バナーをクリックしてご覧ください

【完全版】統計検定2級チートシート
【最短合格】統計検定2級の攻略本|4万字

       

多変量正規分布

多変量正規分布は、複数の確率変数が同時に従う確率密度関数を表しており、各変数間の相関関係を考慮することができます。

実際のデータによくフィットする柔軟な分布であり、多くの確率モデルにおける基盤となっています。

例えば、ガウス分布過程やカルマンフィルタなどの時系列モデル、ガウス混合モデルによるクラスタリング、ガウスナイーヴベイズ分類器など、多変量正規分布は機械学習や統計的推論において広く利用されています。

まず基本的な正規分布や、他の確率分布ついてはこちらをご覧ください。

多変量正規分布の確率密度関数は次のように表されます。

$$f(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})\right)$$

\(mathbf{x}\) は \(n\) 次元の確率変数ベクトル、\(\boldsymbol{\mu}\) は平均ベクトル、\(\boldsymbol{\Sigma}\) は共分散行列です。

\(|\boldsymbol{\Sigma}|\) は共分散行列の行列式を表します。

この密度関数は、\(n\) 次元の正規分布曲面を表しています。

共分散行列

さて、共分散行列についても補足します。

共分散行列 \(\boldsymbol{\Sigma}\) は、確率変数間の相関関係を記述する重要な役割を果たします。

対角成分は各変数の分散を示し、非対角成分は確率変数間の共分散を表します。

共分散行列が対角行列の場合、つまり非対角成分がすべて\(0\)の場合、確率変数は互いに独立となります。

さて、多変量正規分布の話題に戻ります。

多変量正規分布の主な性質として、確率変数のあらゆる線形結合も正規分布に従うことが知られています。

つまり、\(\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}\) の形の線形変換を施しても、\(\mathbf{y}\) も多変量正規分布に従います。

この性質は、主成分分析などの多変量解析手法の理論的根拠となっています。

また、多変量正規分布の下での条件付き分布も、やはり多変量正規分布となります。

例えば、\(\mathbf{x} = (\mathbf{x}_1, \mathbf{x}_2)\) と分けて考え、\(\mathbf{x}_2\) が与えられたときの \(\mathbf{x}_1\) の条件付き分布は、

$$\begin{align*}
\mathbf{x}_1 | \mathbf{x}_2 &\sim \mathcal{N}(\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2), \boldsymbol{\Sigma}_{11} – \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}) \\
&= \mathcal{N}(\mathbf{E}[\mathbf{x}_1 | \mathbf{x}_2], \mathbf{Cov}[\mathbf{x}_1 | \mathbf{x}_2])
\end{align*}$$

と表せます。

\(\boldsymbol{\Sigma}_{ij}\) は共分散行列

\(\boldsymbol{\Sigma}\) の \(i, j\) ブロック行列を表します。

この性質は、ベイズ推論や回帰分析など、様々な分野で活用されています。

必要な前提知識と性質について

実務で多変量正規分布を利用する際の前提知識としては、線形代数と多変量統計学の知見が役立ちます。

上で説明していた、共分散行列の性質を理解することが重要です。特に、共分散行列の正定値性や、行列式と逆行列の概念を把握しておく必要があります。

これらの知識があれば、多変量正規分布の確率密度関数の意味を理解できるはずです。

さて、再掲します。

$$\begin{equation*}
f(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})\right)
\end{equation*}$$

実際、この確率密度関数は幾何的な性質を持っています。

指数部分 \((\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})\) は、観測値 \(\mathbf{x}\) と平均ベクトル \(\boldsymbol{\mu}\) の距離を共分散行列 \(\boldsymbol{\Sigma}\) で尺度を調整したものです。

つまり、この項は \(\mathbf{x}\) が \(\boldsymbol{\mu}\) からどれだけ離れているかを測る尺度となっています。

共分散行列 \(\boldsymbol{\Sigma}\) が単位行列の場合、この距離は通常のユークリッド距離になります。

一方、非対角成分が\(0\)でない場合、確率変数間の相関があることを考慮した距離となります。

実務では、このような多変量正規分布の性質を利用して、異常値検知や外れ値除去などのデータ前処理を行うことがあります。

また、ベイズ推論における事前分布や、機械学習モデルにおける出力分布としても広く用いられています。

$$\begin{equation*}
\mathbf{x}_1 | \mathbf{x}_2 \sim \mathcal{N}(\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2), \boldsymbol{\Sigma}_{11} – \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21})
\end{equation*}$$

その適用範囲の広さは、多変量正規分布が柔軟でありながら、扱いやすい性質を持つことに起因しています。


この式に示されるように、多変量正規分布の条件付き分布もやはり多変量正規分布になります。この性質は、ベイズ推論やカルマンフィルタなどで活用されています。

最後に少し注意点を述べておきます。

多変量正規分布を実務で扱う上での注意点は、高次元データへの対応と、実際のデータとの乖離への対処です。

確率変数の次元が高くなると、共分散行列のパラメータ数が爆発的に増加するため、推定が困難になります。また、実データは必ずしも正規分布に従わないことも多いため、ロバスト性や柔軟性のある拡張モデルを検討する必要があります。

ガウス混合モデルや、ガウス過程などの非パラメトリックベイズモデルがその一例ですね。

以上のように、多変量正規分布は実務で幅広く活用されており、前提知識を備えながらその性質を理解し、課題に対処することが重要となります。

機械学習や統計的モデリングの現場では、多変量正規分布は結構古くから使われている基礎的な確率分布ですが、今後もその重要性は変わらないでしょう。

まとめ

多変量正規分布のまとめは以下の通りです。

– 確率変数が複数ある場合の確率密度関数を表す。確率変数間の相関関係を考慮できる。
– 確率密度関数:

$$f(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})\right)$$


– $\mathbf{x}$: \(n\)次元確率変数ベクトル
– \(\boldsymbol{\mu}\): 平均ベクトル
– \(\boldsymbol{\Sigma}\): 共分散行列
– 共分散行列$\boldsymbol{\Sigma}$が対角行列の場合、確率変数は独立。
– 確率変数の線形結合も正規分布に従う性質があり、主成分分析などの理論的根拠となる。
– 条件付き分布も多変量正規分布:

$$\mathbf{x}_1 | \mathbf{x}_2 \sim \mathcal{N}(\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2), \boldsymbol{\Sigma}_{11} – \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21})$$

FOLLOW ME !