効果量とは？サンプルサイズ設計を実務で使うには

「統計的に有意な差が出ました！」

日々の分析で、p値が0.05を下回った結果に一喜一憂しがちです。その「有意差」、本当に意味のある差と言えるのでしょうか？ここに効果量という概念が使えます。

1. 効果量とは何か？ – 統計的有意性との違い

効果量とは、一言で言えば「効果の大きさ」を示す指標です。統計的検定で得られた結果が、単なる偶然ではない、実質的な意味を持つ差や関係性なのかどうかを判断するために用いられます。

重要なのが、統計的有意性との違いです。統計的有意性は、p値によって判断され、「偶然にこのような結果が得られる確率」を示します。p値が小さいほど、偶然である可能性は低くなりますが、効果の大きさについては何も語ってくれません。

例を挙げてみましょう。

ある新しいWebサイトのデザインAと、既存のデザインBの効果を比較するためにA/Bテストを実施したとします。コンバージョン率を指標とし、大規模なサンプルサイズで統計的検定を行った結果、デザインAの方がデザインBよりも統計的に有意にコンバージョン率が高いという結果が得られました（＄{p < 0.05}$）。

しかし、効果量を計算してみると、その差はごくわずか 0.1% だったとします。この場合、統計的には有意差があるものの、ビジネス的な視点で見ると、0.1%の改善のために大規模なサイトリニューアルを行う価値があるかどうかは疑問が残りますよね。

統計的有意性は「差があるかどうか」を教えてくれますが、「どのくらい差があるのか」、つまり効果の大きさは効果量によって評価する必要があります。

2. 効果量の種類 – d族効果量とr族効果量、そしてCohen’s h

効果量には様々な種類がありますが、大きく分けてd族効果量とr族効果量の2つに分類できます。

2.1. d族効果量 – 平均値の差に基づく効果量

d族効果量は、主に2群間の平均値の差を評価する際に用いられます。代表的なd族効果量として、Cohen’s d と Hedges’ g があります。Cohen’s d は、2群間の平均値の差を標準偏差で割ることで算出される効果量です。

$${d=\frac{\mu_1-\mu_2}{\sigma}}$$

ここで、${\mu_1}$と ${\mu_2}$はそれぞれの群の母平均、${\sigma}$は母標準偏差を表します。実際には母集団のパラメータは未知であるため、標本統計量を用いて推定します。

$${d=\frac{\overline{X}_1-\overline{X}_2}{S_p}}$$

ここで、${\overline{X}_1}$と${\overline{X}_2}$はそれぞれの群の標本平均、${S_p}$はプールされた標準偏差（pooled standard deviation）を表します。プールされた標準偏差は、2群の標本標準偏差を統合したもので、以下の式で計算されます。

$${S_p=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}}$$

${n_1}$と ${n_2}$はそれぞれの群のサンプルサイズ、${S_1^2}$と${S_2^2}$とはそれぞれの群の不偏分散を表します。

Hedges’ g は、Cohen’s d のバイアスを修正した効果量です。特にサンプルサイズが小さい場合に、Cohen’s d は効果量を過大評価する傾向があるため、Hedges’ g が推奨されます。

Hedges’ g は、Cohen’s d に修正係数を掛けることで算出されます。

$${g=d×J}$$

修正係数${J}$は以下の式で計算されます。

$${J=1-\frac{3}{4df-1}}$$

ここで、${df}$は自由度（degrees of freedom）を表し、

$${df=n_1+n_2-2}$$

となります。

point

Hedges’ g は、Cohen’s d よりも保守的な効果量であり、特にサンプルサイズが小さい場合にはより適切な効果量指標となります。