中心極限定理についてわかりやすく解説|大数の法則との違い
こんにちは、青の統計学です。
昨今だと、高校の情報の授業でも中心極限定理や大数の法則が扱われるようになりましたね。
今回は、中心極限定理の直観的な解釈や理論まで理解してみましょう。
1. 数学的背景
1.1 確率変数と確率分布の基礎
中心極限定理を理解するためには、まず確率変数と確率分布の基本的な概念を押さえておく必要があります。
まずは、基礎事項からです
確率変数
確率的な事象の結果を数値として表現するもの。
例えば、サイコロを振って出る目を表す変数 $X$ は、$X \in {1, 2, 3, 4, 5, 6}$ という値をとる確率変数です。確率変数には、離散型(有限個または可算無限個の値をとる)と連続型(区間内の任意の値をとる)の2種類があります。
確率分布
確率変数がとりうる値とその確率の対応関係を表します。離散型確率変数の場合は確率質量関数(PMF)、連続型確率変数の場合は確率密度関数(PDF)によって表現されます。
確率分布を特徴づける重要な指標として、期待値(平均)と分散があります。
期待値 $E[X]$ は、確率変数 $X$ の平均的な値を表し、次のように定義されます
離散型の場合:$E[X] = \sum_{i} x_i P(X = x_i)$
連続型の場合:$E[X] = \int_{-\infty}^{\infty} x f(x) dx$
$f(x)$ は確率密度関数です。
分散 $Var[X]$ は、確率変数の値が期待値からどれだけばらついているかを表す指標で、次のように定義されます
$${Var[X] = E[(X – E[X])^2] = E[X^2] – (E[X])^2}$$
分散の平方根である標準偏差 $\sigma = \sqrt{Var[X]}$ も、ばらつきを表す重要な指標です。
1.2 独立同一分布(i.i.d.)の概念
中心極限定理を理解する上で、「独立同一分布(independent and identically distributed、だいたい略してi.i.d.と言われます)」という概念も押さえておく必要がありますね。
独立とは、複数の確率変数があるとき、一方の変数の値が他方の変数の確率分布に影響を与えないことを意味します。

例えば、サイコロを2回振るとき、1回目の出目は2回目の出目に影響を与えません。これが独立性です。
同一分布とは、複数の確率変数が全て同じ確率分布に従うことを意味します。例えば、同じサイコロを複数回振る場合、各試行は同じ一様分布に従います。
1.3 中心極限定理の数学的定義
では、中心極限定理の定義を見てみましょう。
まずは、国語的に理解しましょう
例えば、人間の身長を考えてみましょう。身長は遺伝的要因、栄養状態、環境要因など、多くの独立した要因の影響を受けます。中心極限定理によれば、これらの要因が積み重なった結果である身長は、正規分布に近い分布を示すことが期待されます。実際、多くの集団において身長はほぼ正規分布に従うことが知られています。
また、サイコロを何度も振って出た目の平均を考えると、試行回数が増えるにつれて、その平均値の分布は正規分布に近づいていきます。
これは、各試行が独立であり、同じ確率分布(一様分布)に従うためですね。
中心極限定理(基本形)
$X_1, X_2, \ldots, X_n$ を互いに独立で同一の確率分布に従う確率変数列とし、その期待値を $\mu$、分散を $\sigma^2 > 0$ とする。
このとき、標本平均 $\bar{X}n = \frac{1}{n}\sum{i=1}^{n} X_i$ について、$n$ が大きくなるにつれて、確率変数
$${Z_n = \frac{\bar{X}_n – \mu}{\sigma/\sqrt{n}}}$$
の分布は標準正規分布 $N(0, 1)$ に収束します。
つまり、$n \to \infty$ のとき、任意の実数 $a < b$ に対して、
$${P(a \leq Z_n \leq b) \to \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx}$$
が成り立ちます。
1.4 何が嬉しいか
ここまでで、「多くの小さな独立した要因が積み重なって生じる現象は、正規分布に従う傾向がある」ということがわかりました。
実際これは何が良いのでしょうか。
中心極限定理の嬉しい点は、元の分布の形状に関わらず、標本平均の分布が正規分布に収束することです。

元の分布が一様分布であれ、指数分布であれ、あるいは複雑な形状の分布であれ、標本サイズが十分大きければ、標本平均の分布は正規分布に近づきます。
というのも、多くの統計的手法は正規分布を仮定しているからです。中心極限定理のおかげで、元のデータが正規分布に従わなくても、標本平均などの統計量は正規分布に近似できるため、これらの手法を適用することが正当化されるのです。
1.5 正規分布と二項分布のケース
特殊なケースとして、元の確率変数が既に正規分布に従っている場合、標本平均の分布は任意の標本サイズにおいて正確に正規分布になります。
これは、正規分布の再生性と呼ばれる性質によるものです。
正規分布とはいえば、ベル状の左右対称の確率分布でしたね。
正規分布(ガウス分布とも呼ばれる)は、次の確率密度関数で表される連続確率分布です
$${f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}}$$
- $\mu$ は平均
- $\sigma$ は標準偏差
- 特に $\mu = 0$, $\sigma = 1$ の場合を標準正規分布と呼びます。
よければ、確率分布可視化ツールで動きを見てください。

また、元の確率変数が二項分布 $B(n, p)$ に従う場合、$n$ が大きくなると二項分布は正規分布 $N(np, np(1-p))$ で近似できます。これは、二項分布が独立な同一のベルヌーイ試行の和として表現できるため、中心極限定理の直接的な応用例となっています。
2. 他の統計学概念との関連性
2.1 大数の法則との関係
中心極限定理を理解する上で、「大数の法則(Law of Large Numbers)」との関係(というか違い)を理解することが大事です。
具体的には、独立同一分布に従う確率変数 $X_1, X_2, \ldots, X_n$ の標本平均 $\bar{X}n = \frac{1}{n}\sum{i=1}^{n} X_i$ について、$n$ が大きくなるにつれて、$\bar{X}_n$ が母平均 $\mu$ に確率収束することを示しています。
形式的には、任意の正数 $\epsilon > 0$ に対して、
$${\lim_{n \to \infty} P(|\bar{X}_n – \mu| < \epsilon) = 1}$$
が成り立ちます。
大数の法則と中心極限定理は、標本平均の挙動に関する定理という点で共通していますが、その焦点が異なりますね。
- 収束の対象
- 大数の法則:標本平均が母平均に収束すること示す
- 中心極限定理:標準化された標本平均の分布が正規分布に収束することを示す
- 収束の種類
- 大数の法則:確率収束(あるいは強収束)を扱います
- 中心極限定理:分布収束を扱います。
- 情報の詳細さ
- 大数の法則:標本平均が母平均の周りに集中することを示す
- 中心極限定理:その集中の仕方(分布の形状)が正規分布に従うことを示す

要は、大数の法則は標本平均が母平均に近づくことを保証し、中心極限定理はその近づき方の分布を特定しています。
統計的推論では、これら二つの定理を組み合わせて用いることが多いです。
例えば、標本平均を用いて母平均を推定する場合、大数の法則によって標本平均が母平均の良い推定量であることが保証され、中心極限定理によって推定の精度(信頼区間など)を評価することができます。
3.2 標本平均と標本分布の概念
では、上で説明してきた、「標本平均」と「標本分布」って何が違うのでしょうか。
標本平均は、観測されたデータの算術平均です。$n$ 個のデータ点 $x_1, x_2, \ldots, x_n$ に対して、標本平均は以下で計算されます。
$${\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i}$$
一方、標本分布は、統計量(標本平均など)の確率分布を指します。同じ母集団から複数の標本を抽出し、各標本について統計量を計算すると、その統計量は標本ごとに異なる値をとります。
この統計量の値の分布が標本分布です。

中心極限定理は、この標本平均の標本分布が、標本サイズが大きくなるにつれて正規分布に近づくことを示しているというわけです。
標本平均の標本分布の特性は以下ですね
- 平均:標本平均の期待値は母平均に等しい($E[\bar{X}] = \mu$)。
- 標本平均が母平均の不偏推定量であることを意味します。
- 分散:標本平均の分散は、母分散を標本サイズで割ったものに等しい($Var[\bar{X}] = \frac{\sigma^2}{n}$)
- 標本サイズが大きくなるほど標本平均の精度が向上することを示しています。
- 分布の形状:中心極限定理により、標本サイズが十分大きければ、標本平均の分布は正規分布に近似できます。
4 実践的な意義と具体例
4.1 実際のデータ分析事例における中心極限定理の適用
事例: ウェブサイトのA/Bテスト
あるECサイトが、新しいチェックアウトプロセスの効果を検証するためにA/Bテストを実施したとします。従来のプロセス(A)と新しいプロセス(B)それぞれに、ランダムに選ばれた10,000人のユーザーを割り当てました。
各ユーザーのコンバージョン(購入完了)は二項分布に従うと考えられます(コンバージョンする=1、しない=0)。中心極限定理により、各グループのコンバージョン率(標本平均)は、標本サイズが大きいため、近似的に正規分布に従うと考えられます。
結果として、グループAのコンバージョン率は3.2%、グループBのコンバージョン率は3.8%でした。
この差が統計的に有意かどうかを、中心極限定理に基づく正規近似を用いて検定できます。

二項分布の標準誤差は $\sqrt{p(1-p)/n}$ で計算できます。
ここで、$p$ はコンバージョン率、$n$ は標本サイズです。
グループAの標準誤差: $\sqrt{0.032 \times 0.968 / 10000} \approx 0.00176$
グループBの標準誤差: $\sqrt{0.038 \times 0.962 / 10000} \approx 0.00191$
二つの比率の差の標準誤差: $\sqrt{0.00176^2 + 0.00191^2} \approx 0.00260$
観測された差: $0.038 – 0.032 = 0.006$
$z$値: $0.006 / 0.00260 \approx 2.31$
この$z$値は、標準正規分布の上側2.5%点(約1.96)を超えているため、5%の有意水準で、新しいチェックアウトプロセスは従来のプロセスよりもコンバージョン率が高いと結論づけることができます。
4.4 中心極限定理の限界と注意点
ここまで見てきた通りで、中心極限定理は便利な定理ですが、その適用には限界があり、いくつかの注意点を理解しておきましょう。
1. 標本サイズの要件
中心極限定理は「標本サイズが十分大きければ」という条件付きで成り立ちます。
では、「十分大きい」とはどの程度でしょうか?
一般的なルールとしては、標本サイズが30以上あれば、多くの場合で中心極限定理を適用できるとされています。しかし、これは絶対的な基準ではなく、元の分布の特性によって変わります:
- 元の分布が正規分布に近い場合、小さな標本サイズ(n < 30)でも中心極限定理は良く機能します。
- 元の分布が強い歪みを持つ場合(例:指数分布)、より大きな標本サイズが必要です。
- 元の分布が多峰性(複数のピークを持つ)の場合、非常に大きな標本サイズが必要になることがあります。
2. 独立性の仮定
基本的な中心極限定理は、標本が独立同一分布(i.i.d.)に従うことを仮定しています。この仮定が満たされない場合、定理の適用には注意が必要です。
例えば、時系列データでは観測値間に自己相関がある場合が多く、独立性の仮定が満たされません。このような場合、標準的な統計的推論手法を直接適用すると、誤った結論を導く可能性があります。
3. 有限母集団からのサンプリング
中心極限定理は、無限母集団からのサンプリング、あるいは復元抽出を仮定しています。有限母集団から非復元抽出を行う場合、特に標本サイズが母集団サイズの10%を超える場合には、有限母集団修正(finite population correction)を適用する必要があります。
4. 理論と実践のギャップ
中心極限定理は漸近的な結果であり、標本サイズが無限大に近づくにつれて成り立つものです。実際の応用では、有限の標本サイズで作業することになるため、理論と実践の間にはギャップが存在します(当然)
特に、小さな確率(例:1%未満)を扱う場合や、分布の裾の挙動が重要な場合(例:リスク管理とか、ですかね)には、中心極限定理に基づく正規近似が不適切なことがあります。