期待値と分散について|確率論と統計学の重要概念をわかりやすく解説
こんにちは、青の統計学です!
今回は、データの解釈や意思決定を行うために役立つ、期待値と分散 について解説します。
簡単だからといって、曖昧な理解をしていないでしょうか??
数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。
期待値と分散
期待値と分散は、確率論および統計学における概念で、期待値は、データの代表値や予測値を推定するために使われます。分散は、データの変動性や不確実性を評価するのに役立ちます。
これらの概念は、確率変数の平均値や変動性を理解し、データの解釈や意思決定を行うために役立ちます。
別の指標は、この辺りを見てください。
期待値
期待値は、確率変数の平均値を表します。(平均とごちゃごちゃに理解していないでしょうか?ちゃんと別物です)
離散確率変数 $X$ の期待値 $E[X]$ は、以下のように定義されます。
$$E[X] = \sum_{x} x P(X = x)$$
ここで、$P(X = x)$ は確率変数 $X$ が値 $x$ をとる確率です。
で連続確率変数 $X$ の場合、期待値は次のように定義されます。
$$E[X] = \int_{-\infty}^{\infty} x f(x) dx$$
ここで、$f(x)$ は確率密度関数です。
離散でも連続でも定義は同じですね:)
期待値は、確率変数の値の加重平均であり、その値が期待される中心的な位置を示します。
分散
一方、分散は、確率変数の値がその期待値からどの程度離れているかを測る尺度です。
離散確率変数 $X$ の分散 $\mathrm{Var}(X)$ は、以下のように定義されます。
$$\mathrm{Var}(X) = E[(X – E[X])^2] = \sum_{x} (x – E[X])^2 P(X = x)$$
連続確率変数 $X$ の場合、分散は次のように定義されます。
$$\mathrm{Var}(X) = \int_{-\infty}^{\infty} (x – E[X])^2 f(x) dx$$
分散は、確率変数の値が期待値からどの程度離れているかの平均的な大きさを表します。
分散が小さいほど、確率変数の値が期待値の周りに集中していることを意味します。
標準偏差は分散の平方根であり、\(\sqrt{\mathrm{Var}(X)}\) と表されます。
主な性質や具体例について
期待値と分散には、いくつかの重要な性質があります。
$$\begin{align*}
&E[aX + b] = aE[X] + b \\
&\mathrm{Var}(aX + b) = a^2\mathrm{Var}(X) \\
&\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) \quad (\text{独立の場合})
\end{align*}$$
これらの性質は、さまざまな確率分布の期待値と分散を求めるのに役立ちます。
例えば、二項分布 $\mathrm{Bin}(n, p)$ を考えましょう。
これは$n$ 回の bernoulli 試行において成功の回数を表す確率変数です。
二項分布 $\mathrm{Bin}(n, p)$ の期待値は $np$ 、分散は $np(1-p)$ となります。
ここまでで概ね定義がわかったところで、具体例を見ていきましょう。
期待値は、確率変数の平均値を表します。
離散確率変数 $X$ の期待値 $E[X]$ は、以下のように定義されます。
$$E[X] = \sum_{x} x P(X = x)$$
この式は、確率変数 $X$ の各値 $x$ に対して、その値に確率 $P(X = x)$ を掛け合わせたものの総和を取ることで、期待値を求めています。
例えば、公正なコイン投げ ($P(前) = P(後) = 0.5$) において、前を 1、後を 0 とする確率変数 $X$ の期待値は次のように求められます。
$$E[X] = 1 \times 0.5 + 0 \times 0.5 = 0.5$$
次に、分散について見ていきましょう。
分散は、確率変数の値がその期待値からどの程度離れているかを測る尺度でしたね。
離散確率変数 $X$ の分散 $\mathrm{Var}(X)$ は、以下のように定義されます。
$$\mathrm{Var}(X) = E[(X – E[X])^2] = \sum_{x} (x – E[X])^2 P(X = x)$$
この式は、確率変数 $X$ の各値 $x$ と期待値 $E[X]$ の差の二乗に確率 $P(X = x)$ を掛け合わせたものの総和を取ることで、分散を求めています。
前の例の公正なコイン投げにおける確率変数 $X$ の分散は次のように求められます。
$$\begin{aligned}
\mathrm{Var}(X) &= (1 – 0.5)^2 \times 0.5 + (0 – 0.5)^2 \times 0.5 \\
&= 0.25 + 0.25 = 0.5
\end{aligned}$$
実際のデータ解析では、サンプルの平均値が母集団の期待値の推定値となり、サンプルの分散が母集団の分散の推定値となります。
中心極限定理により、サンプルサイズが大きくなるにつれて、サンプル平均の分布は正規分布に近づきます。
中心極限定理は、独立同分布の確率変数n個の和や、その平均の分布はnを十分大きくすると正規分布で近似されるようになるという定理です。
こちらがまとまっています。
まとめ
以下に期待値と分散のまとめを箇条書きで示します。
– 期待値と分散は、確率論および統計学における重要な概念
– 期待値は確率変数の平均値を表す
– 離散確率変数 $X$ の期待値: $$E[X] = \sum_{x} x P(X = x)$$
– 連続確率変数 $X$ の期待値: $$E[X] = \int_{-\infty}^{\infty} x f(x) dx$$
– 分散は確率変数の値が期待値からどの程度離れているかを測る尺度
– 離散確率変数 $X$ の分散: $$\mathrm{Var}(X) = E[(X – E[X])^2] = \sum_{x} (x – E[X])^2 P(X = x)$$
– 連続確率変数 $X$ の分散: $$\mathrm{Var}(X) = \int_{-\infty}^{\infty} (x – E[X])^2 f(x) dx$$
– 期待値と分散の性質は以下
– $E[aX + b] = aE[X] + b$
– $\mathrm{Var}(aX + b) = a^2\mathrm{Var}(X)$
– $\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)$ (独立の場合)
– 様々な確率分布の期待値と分散を求められる(例: 二項分布、正規分布など)
– サンプル平均と分散は母集団の期待値と分散の推定値となる