変動係数とは?わかりやすく解説|統計検定2級
こんにちは、青の統計学です。
今回は、変動係数 について解説します。

統計検定2級で変動係数を求める問題が出ましたね。異なる単位や平均値を持つ確率変数の散らばりを比較する際に有用です。
変動係数とは?
まず概要から言うと、変動係数は確率変数の相対的な散らばり具合を表す尺度です。
$$
変動係数 = \frac{標準偏差}{平均値}
$$
確率変数の標準偏差を平均値で割ったものとして定義されます。
標準偏差は確率変数の絶対的な散らばり具合を測る一方で、変動係数は平均値に対する散らばり具合の相対的な大きさを表します。
もう少し背景から深ぼっていきましょう
なぜ標準偏差だけでは不十分なのか?
例えば、ここに2つの商品があるとします。
- 高級腕時計: 平均価格50万円、価格の標準偏差は5万円
- 缶コーヒー: 平均価格120円、価格の標準偏差は12円
標準偏差だけを見ると、高級腕時計の価格変動(5万円)は、缶コーヒー(12円)に比べて圧倒的に大きく見えますね。

では、「高級腕時計の方が、缶コーヒーよりも価格が不安定だ」と結論づけてしまってよいのでしょうか?
直感的には、何かが違うと感じるはずです。50万円の腕時計にとっての5万円の変動と、120円のコーヒーにとっての12円の変動は、その「重み」が異なるはずです。
このような平均値(スケール)が異なるデータセットの「相対的なばらつき」を比較するための物差しである変動係数(Coefficient of Variation, CV)が使えます。
標準偏差はスケールに惑わされる?
先ほどの腕時計とコーヒーの例に戻りましょう。
標準偏差は、データがその平均値からどれくらい散らばっているかを示す指標です。
計算式は以下の通りです。
$$\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}$$
この式が示す通りで、標準偏差の単位は、元のデータと同じです(価格なら円、身長ならcm)。これが、異なるスケールのデータを比較する際に問題を引き起こします。年収1000万円の人の資産が1年で50万円変動することと、年収300万円の人の資産が50万円変動することでは、後者の方が遥かに大きなインパクトを持つことは明らかです。
絶対的な変動量(標準偏差)は同じでも、その人が置かれている基準(平均)が異なれば、ばらつきの持つ意味合いは変わってきますよね。つまり、標準偏差は「絶対的な」ばらつきの大きさを測る指標であり、平均値という土台の大きさを考慮していないのです。これが、標準偏差だけでは不十分な理由です。
変動係数:相対的なばらつきを測る普遍的な物差し
この課題を解決するのが変動係数(CV)です。
定義は最初に見た通りでシンプルです。
$${CV=\frac{\mu}{\sigma}}$$
- $ \sigma$ は標準偏差
- $\mu$ は平均値( \mu > 0 $の場合)。
これは、ばらつきの大きさ(標準偏差$ \sigma )を、そのデータの基準点(平均値 \mu $)で割り算しているのです。つまり、「平均値を1としたときに、標準偏差はどれくらいの大きさになるか」を計算していることになります。
これにより、変動係数は単位を持たなくなります(無名数という)。元のデータが円であろうと、cmであろうと、個数であろうと、変動係数は常に同じ土俵で比較できる数値になるのです。これこそが、変動係数が持つ力の本質です。
先ほどの例で計算してみましょう。
- 高級腕時計: CV=0.1
- 缶コーヒー: CV=0.1
実は、両者の変動係数は全く同じ「0.1」です。これは、どちらの商品も「平均価格に対して10%程度のばらつきを持っている」ことを意味します。絶対的な金額は大きく違えど、価格の相対的な安定性は同程度である、という示唆が得られました。
標準偏差だけを見ていたときには見えなかったですね。
別の表し方について
変動係数は、確率変数\(X\)の平均\(\mu\)と分散\(\sigma^2\)を用いて、以下のように表すこともできます。
$$
変動係数 = \frac{\sqrt{\sigma^2}}{\mu} = \frac{\sigma}{\mu}
$$
さらに、標本平均\(\bar{X}\)と標本分散\(S^2\)を用いた経験的な変動係数は次のように定義されます。
$$
経験的変動係数 = \frac{\sqrt{S^2}}{\bar{X}}
$$
このように、変動係数は確率変数や標本データの相対的な散らばりを簡潔に表す指標として有用です。しかし、具体は後述しますが、確率分布の形状には依存しないため、ある種の確率分布では解釈が難しくなる場合があります。
変動係数の導出
変動係数の式の導出を見ていきましょう。
確率変数$X$の分散$\sigma^2$は、次のように定義されています。
$$
\sigma^2 = E[(X – \mu)^2]
$$
ここで、$E[\cdot]$は期待値を表し、$\mu$は$X$の平均値です。
分散の平方根をとると標準偏差$\sigma$が得られます。
$$
\sigma = \sqrt{\sigma^2} = \sqrt{E[(X – \mu)^2]}
$$
標準偏差を平均値で割れば、変動係数が得られます。
$$
\text{変動係数} = \frac{\sigma}{\mu} = \frac{\sqrt{E[(X – \mu)^2]}}{\mu}
$$
つまり、変動係数は標準偏差を平均値で規格化したものと解釈できます。
具体例
例えば、確率変数$X$が平均$\mu=100$、標準偏差$\sigma=20$の正規分布$\mathcal{N}(100, 20^2)$に従うとしましょう。
この場合、変動係数は$20/100=0.2$となります。
一般に、正規分布の変動係数は常に$\sigma/\mu$で与えられます。
一方、確率変数$Y$が平均$\lambda=5$のポアソン分布$\text{Pois}(5)$に従うとしましょう。
ポアソン分布の平均と分散は等しいので、$\sigma=\sqrt{\lambda}=\sqrt{5}$です。
よって、変動係数は$\sqrt{5}/5\approx0.447$となります。
このように、変動係数は確率分布の種類に依存しますが、一般に$0\leq\text{変動係数}\leq1$の範囲にあり、値が小さいほど相対的なばらつきが小さいことを意味します。
変動係数が$1$を超えると、ばらつきが平均より大きいことを示唆します。
例えば、確率変数$Z$が$Z=X-100$($X\sim\mathcal{N}(100, 20^2)$)で定義されるとすると、$\mu_Z=0$、$\sigma_Z=20$なので、変動係数は$20/0=\infty$となり、ばらつきが非常に大きいことがわかります。
変動係数の限界
確率変数の相対的な散らばりを表す変動係数は、標本分散と標本平均の比として定義されましたね。
より一般的には、確率変数$X$の分散関数$V(X)$と平均関数$E(X)$の比として定義できます。
すなわち、
$$
\text{変動係数} = \frac{\sqrt{V(X)}}{E(X)}
$$
となります。
この定義は、広範な確率分布に対して適用可能です。
例えば、正規分布や指数分布、ガンマ分布などでは、変動係数は既知の関数形で表されます。
変動係数は、確率分布の形状によらず、相対的な散らばりを表す指標として有用です。
しかし、先ほども申し上げた通り、確率分布の形状を無視する点が変動係数の限界でもあります。
例えば、平均が0に近づくと変動係数は発散する可能性があります。
また、確率分布が裾の重い場合、変動係数は平均的なばらつきを過小評価する傾向があります。
定義から考えてみると、弱点が分かりますね。
青の統計学は、東京大学を卒業後、事業会社でデータサイエンティストとして勤務する筆者が運営する、AI・データサイエンスの総合学習メディアです。 自身の大学時代の経験から、教科書だと分かりにくかった事項を克服でき、かつ実務で活かせる知識を楽しく学べるように、インタラクティブ学習ツール「DS Playground」を開発しており、大学での講義の材料としても利用されています。Xフォロワー1万人を突破!