確率分布

HOME
統計学
確率分布
多変量正規分布の確率密度関数と主な性質を解説|機械学習・統計学の基礎

07/09/2024 / 最終更新日時 : 11/06/2025 Blue 確率分布

多変量正規分布の確率密度関数と主な性質を解説|機械学習・統計学の基礎

こんにちは、青の統計学です！

今回は、多変量正規分布について解説します。機械学習、統計的推論で幅広く利用される基礎的な分布ですので、数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。

多変量正規分布

多変量正規分布は、複数の確率変数が同時に従う確率密度関数を表しており、各変数間の相関関係を考慮することができます。

実際のデータによくフィットする柔軟な分布であり、多くの確率モデルにおける基盤となっています。

例えば、ガウス分布過程やカルマンフィルタなどの時系列モデル、ガウス混合モデルによるクラスタリング、ガウスナイーヴベイズ分類器など、多変量正規分布は機械学習や統計的推論において広く利用されています。

まず基本的な正規分布や、他の確率分布ついてはこちらをご覧ください。

多変量正規分布の確率密度関数は次のように表されます。

$$f(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})\right)$$

$\mathbf{x}$ は $n$ 次元の確率変数ベクトル、$\boldsymbol{\mu}$ は平均ベクトル、$\boldsymbol{\Sigma}$ は共分散行列です。

$|\boldsymbol{\Sigma}|$ は共分散行列の行列式を表します。

この密度関数は、$n$ 次元の正規分布曲面を表しています。

共分散行列

さて、共分散行列についても補足します。

共分散行列 $\boldsymbol{\Sigma}$ は、確率変数間の相関関係を記述する重要な役割を果たします。

対角成分は各変数の分散を示し、非対角成分は確率変数間の共分散を表します。

共分散行列が対角行列の場合、つまり非対角成分がすべて$0$の場合、確率変数は互いに独立となります。

さて、多変量正規分布の話題に戻ります。

多変量正規分布の主な性質として、確率変数のあらゆる線形結合も正規分布に従うことが知られています。

つまり、$\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}$ の形の線形変換を施しても、$\mathbf{y}$ も多変量正規分布に従います。

この性質は、主成分分析などの多変量解析手法の理論的根拠となっています。

また、多変量正規分布の下での条件付き分布も、やはり多変量正規分布となります。

例えば、$\mathbf{x} = (\mathbf{x}_1, \mathbf{x}_2)$ と分けて考え、$\mathbf{x}_2$ が与えられたときの $\mathbf{x}_1$ の条件付き分布は、

$$\begin{align*}
\mathbf{x}_1 | \mathbf{x}_2 &\sim \mathcal{N}(\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2), \boldsymbol{\Sigma}_{11} – \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21}) \\
&= \mathcal{N}(\mathbf{E}[\mathbf{x}_1 | \mathbf{x}_2], \mathbf{Cov}[\mathbf{x}_1 | \mathbf{x}_2])
\end{align*}$$

と表せます。

$\boldsymbol{\Sigma}_{ij}$ は共分散行列

$\boldsymbol{\Sigma}$ の $i, j$ ブロック行列を表します。

この性質は、ベイズ推論や回帰分析など、様々な分野で活用されています。

必要な前提知識と性質について

実務で多変量正規分布を利用する際の前提知識としては、線形代数と多変量統計学の知見が役立ちます。

上で説明していた、共分散行列の性質を理解することが重要です。

特に、共分散行列の正定値性や、行列式と逆行列の概念を把握しておく必要があります。

これらの知識があれば、多変量正規分布の確率密度関数の意味を理解できるはずです。

さて、再掲します。

$$\begin{equation*}
f(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})\right)
\end{equation*}$$

実際、この確率密度関数は幾何的な性質を持っています。

指数部分 $(\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})$ は、観測値 $\mathbf{x}$ と平均ベクトル $\boldsymbol{\mu}$ の距離を共分散行列 $\boldsymbol{\Sigma}$ で尺度を調整したものです。

つまり、この項は $\mathbf{x}$ が $\boldsymbol{\mu}$ からどれだけ離れているかを測る尺度となっています。

共分散行列 $\boldsymbol{\Sigma}$ が単位行列の場合、この距離は通常のユークリッド距離になります。

一方、非対角成分が$0$でない場合、確率変数間の相関があることを考慮した距離となります。

実務では、このような多変量正規分布の性質を利用して、異常値検知や外れ値除去などのデータ前処理を行うことがあります。

また、ベイズ推論における事前分布や、機械学習モデルにおける出力分布としても広く用いられています。

$$\begin{equation*}
\mathbf{x}_1 | \mathbf{x}_2 \sim \mathcal{N}(\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2), \boldsymbol{\Sigma}_{11} – \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21})
\end{equation*}$$

その適用範囲の広さは、多変量正規分布が柔軟でありながら、扱いやすい性質を持つことに起因しています。

この式に示されるように、多変量正規分布の条件付き分布もやはり多変量正規分布になります。この性質は、ベイズ推論やカルマンフィルタなどで活用されています。

【時系列】状態空間モデルをわかりやすく解説|カルマンフィルタの仕組み

最後に少し注意点を述べておきます。

多変量正規分布を実務で扱う上での注意点は、高次元データへの対応と、実際のデータとの乖離への対処です。

確率変数の次元が高くなると、共分散行列のパラメータ数が爆発的に増加するため、推定が困難になります。また、実データは必ずしも正規分布に従わないことも多いため、ロバスト性や柔軟性のある拡張モデルを検討する必要があります。

ガウス混合モデルや、ガウス過程などの非パラメトリックベイズモデルがその一例ですね。

以上のように、多変量正規分布は実務で幅広く活用されており、前提知識を備えながらその性質を理解し、課題に対処することが重要となります。

機械学習や統計的モデリングの現場では、多変量正規分布は結構古くから使われている基礎的な確率分布ですが、今後もその重要性は変わらないでしょう。

補足｜カイ二乗分布へ従う統計量への応用

多変量正規分布を使った例を紹介します。

1. 問題設定

${N}$回の独立した試行で、K個のカテゴリのいずれかが生起する場合、その生起回数の同時分布は多項分布に従います。

各カテゴリiの生起確率を${p_i}$とすると

$$P(X_1=n_1,…,X_K=n_K) = \frac{N!}{n_1!…n_K!}p_1^{n_1}…p_K^{n_K}$$

ここで、 $\sum_{i=1}^K n_i = N, \sum_{i=1}^K p_i = 1$です。

2. 漸近的性質

試行回数Nが十分大きいとき、中心極限定理の多変量版により、以下の統計量は多変量正規分布に収束します

$${\sqrt{N}\begin{pmatrix} \frac{X_1}{N} – p_1 \ \vdots \ \frac{X_K}{N} – p_K \end{pmatrix} \xrightarrow{d} N(\mathbf{0}, \Sigma)}$$

ここで共分散行列${\Sigma}$の要素は

$$\Sigma_{ii} = p_i(1-p_i)$$

$$\Sigma_{ij} = -p_ip_j \quad (i \neq j)$$

3. ピアソンのカイ二乗統計量

この性質を利用して、以下のカイ二乗統計量を構築できます

$${\chi^2 = N\sum_{i=1}^K \frac{(X_i/N – p_i)^2}{p_i}}$$

このとき、${N→\infty}$において：

$${\chi^2 \xrightarrow{d} \chi^2(K-1)}$$

つまり、自由度${K-1}$のカイ二乗分布に従います。これは適合度の検定とかでよくみる統計量ですね。

カイ二乗分布については、青の統計学のこのあたりの記事がおすすめです。

まとめ

多変量正規分布のまとめは以下の通りです。

– 確率変数が複数ある場合の確率密度関数を表す。確率変数間の相関関係を考慮できる。
– 確率密度関数:

$$f(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\mathbf{x} – \boldsymbol{\mu})\right)$$

– $\mathbf{x}$: $n$次元確率変数ベクトル
– $\boldsymbol{\mu}$: 平均ベクトル
– $\boldsymbol{\Sigma}$: 共分散行列
– 共分散行列$\boldsymbol{\Sigma}$が対角行列の場合、確率変数は独立。
– 確率変数の線形結合も正規分布に従う性質があり、主成分分析などの理論的根拠となる。
– 条件付き分布も多変量正規分布:

$$\mathbf{x}_1 | \mathbf{x}_2 \sim \mathcal{N}(\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}(\mathbf{x}_2 – \boldsymbol{\mu}_2), \boldsymbol{\Sigma}_{11} – \boldsymbol{\Sigma}_{12}\boldsymbol{\Sigma}_{22}^{-1}\boldsymbol{\Sigma}_{21})$$

青の統計学

@blue_statistics

Blue

青の統計学は、東京大学を卒業後、事業会社でデータサイエンティストとして勤務する筆者が運営する、AI・データサイエンスの総合学習メディアです。自身の大学時代の経験から、教科書だと分かりにくかった事項を克服でき、かつ実務で活かせる知識を楽しく学べるように、インタラクティブ学習ツール「DS Playground」を開発しており、大学での講義の材料としても利用されています。Xフォロワー1万人を突破！