カイ二乗分布の基礎と統計学における重要な役割
こんにちは、青の統計学です!
今回は、カイ二乗分布 について解説します。数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
ぜひ以下バナーをクリックしてご覧ください
カイ2乗分布
カイ二乗分布は確率論および統計学において重要な連続確率分布の一つです。
この分布は、正規分布に従う独立な確率変数の二乗和によって定義されます。
まずは、数学的背景を追っていきましょう。
カイ二乗分布の確率密度関数は、自由度パラメータ $k$ を持ち、以下のように表されます。
$$
f(x; k) = \begin{cases}
\frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}, & x > 0\\
0, & x \leq 0
\end{cases}
$$
ここで、$\Gamma(\cdot)$ はガンマ関数を表します。
自由度パラメータ $k$ は正の整数値をとり、分布の形状を決定します。
$k$ が大きくなるにつれ、分布は右側に裾が長くなります。
カイ二乗分布は、t分布やF分布と同じように標本の分布と呼ばれる分布で、確率密度関数を暗記する問いよりも、性質やどの検定に使うか、というのを理解した方が良いです。
正規分布やポアソン分布あたりなら何度も書くので覚えられるのですが、この辺りの確率密度関数は複雑で、私は覚えていません汗
他の分布についての記事はこちら。
カイ二乗分布は、$n$ 個の標準正規分布に従う独立な確率変数 $Z_1, Z_2, \ldots, Z_n$ の二乗和から導出されます。
つまり、
$$
X = \sum_{i=1}^n Z_i^2
$$
とすると、$X$ はカイ二乗分布に従い、自由度は $n$ となります。
分布の特徴と使い道|適合度検定や独立性の検定
さて、このセクションでは分布の性質や使い道を扱います。
まず一つ目。
標本分散 $S^2$ は不偏推定量であり、母分散 $\sigma^2$ に従います。
このとき、$(n-1)S^2/\sigma^2$ は自由度 $n-1$ のカイ二乗分布に従うことが知られています。(めっちゃよく出ます)
$$(n-1)S^2/\sigma^2 \sim \chi^2_{n-1}$$
また、カイ二乗分布は適合度の良さの検定や独立性の検定などで使われる、カイ二乗値の分布を記述するためにも用いられます。
観測度数 $O_i$ と期待度数 $E_i$ の差の二乗の総和を、期待度数で割ったものが、\[\sum_{i=1}^k \frac{(O_i – E_i)^2}{E_i}\]であり、これはカイ二乗分布に従うことが知られています。
この辺りで簡単にまとめています。
自由度は、カテゴリ数から推定されるパラメータ数を引いた値になります。
この検定に限らず、自由度ってどう計算するっけ??と勘違いするポイントなので、注意してくださいね。
さらに、カイ二乗分布は正規分布の二乗に比例するため、正規分布の確率の計算においても役立ちます。
正規分布の確率密度関数を $\phi(x)$ とすると、\(x^2 \phi(x) \propto \chi^2_1(x)\)の関係があります。
まとめると、以下のような場面で利用されます。
1. 標本分散の分布
標本分散 $S^2$ は不偏推定量であり、母分散 $\sigma^2$ の推定値となります。このとき、$(n-1)S^2/\sigma^2$ は自由度 $n-1$ のカイ二乗分布に従うことが知られています。
\[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1} \]
この性質は、母分散の信頼区間の構築や、分散の検定など、様々な場面で利用されます。
2. 適合度の良さの検定
観測度数 $O_i$ と期待度数 $E_i$ の差の二乗の総和を期待度数で割ったものは、カイ二乗分布に従うことが知られています。
\[ \sum_{i=1}^k \frac{(O_i – E_i)^2}{E_i} \sim \chi^2_{k-p-1} \]
ここで、$k$ はカテゴリ数、$p$ は推定されるパラメータ数です。この性質は、カイ二乗適合度検定などで利用されます。
3. 独立性の検定
2つの質的変数の独立性を検定する際にも、カイ二乗分布が使われます。contingency表の観測度数と期待度数の差の二乗の総和を期待度数で割ったものが、カイ二乗分布に従うことを利用します。
4. 正規分布との関係
カイ二乗分布は正規分布の二乗に比例するため、正規分布の確率の計算においても役立ちます。正規分布の確率密度関数を $\phi(x)$ とすると、\(x^2 \phi(x) \propto \chi^2_1(x)\)の関係があります。
実務で効果的にカイ二乗分布を利用するには、以下の前提知識があると便利です。
– 基本的な確率分布(正規分布、二項分布、ポアソン分布など)の知識
– 最尤推定法などの推定理論の基礎
– 検定の考え方(帰無仮説、対立仮説、有意水準など)
– 自由度の概念
– 期待値、分散などの記述統計量の理解
細かい話|ガンマ分布との関係
再掲しますが、カイ二乗分布の確率密度関数の導出は、以下のように行われます。
$$
\begin{aligned}
f(x; k) &= C x^{k/2-1} e^{-x/2} && (x > 0) \\
&= 0 && (x \leq 0)
\end{aligned}
$$
ここで、$C$ は正規化定数です。
$x > 0$ の条件の下で、$C$ を決めるために両辺を $x$ で積分します。
$$\begin{align*}
\int_0^\infty f(x; k) \,dx &= \int_0^\infty C x^{k/2-1} e^{-x/2} \,dx \\
&= C \int_0^\infty x^{k/2-1} e^{-x/2} \,dx \\
&= C \cdot 2^k \Gamma\left(\frac{k}{2}\right) = 1
\end{align*}$$
ここで、最後の等式は\(x^{k/2-1}e^{-x/2}\)のガンマ関数表示を用いています。
したがって、\(C = \frac{1}{2^{k/2}\Gamma(k/2)}\)となり、カイ二乗分布の確率密度関数が得られます。
カイ二乗分布は、カイ二乗分布は安定分布のひとつであり、独立同分布に従う確率変数の和の分布は、元の分布に収束することが知られています。
また、カイ二乗分布は指数分布の和の分布でもあり、さらにはガンマ分布の特別な場合でもあります。
まとめ
– カイ二乗分布は、確率論および統計学において重要な連続確率分布のひとつ。
– 標準正規分布に従う独立な確率変数の二乗和から導出される。
– 確率密度関数: $$f(x; k) = \begin{cases}
\frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}, & x > 0\\
0, & x \leq 0
\end{cases}$$
ここで、$k$は自由度パラメータ(正の整数)で分布の形状を決定する。
– 主な応用:
– 標本分散の分布: \(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}\)
– 適合度の良さの検定: \(\sum_{i=1}^k \frac{(O_i – E_i)^2}{E_i} \sim \chi^2_{k-p-1}\)
– 独立性の検定
– 正規分布の確率計算: \(x^2 \phi(x) \propto \chi^2_1(x)\)