効果量とは?サンプルサイズ設計を実務で使うには
「統計的に有意な差が出ました!」
日々の分析で、p値が0.05を下回った結果に一喜一憂しがちです。その「有意差」、本当に意味のある差と言えるのでしょうか? ここに効果量という概念が使えます。
1. 効果量とは何か? – 統計的有意性との違い
効果量とは、一言で言えば「効果の大きさ」を示す指標です。 統計的検定で得られた結果が、単なる偶然ではない、実質的な意味を持つ差や関係性なのかどうかを判断するために用いられます。
重要なのが、統計的有意性との違いです。統計的有意性は、p値によって判断され、「偶然にこのような結果が得られる確率」を示します。p値が小さいほど、偶然である可能性は低くなりますが、効果の大きさについては何も語ってくれません。
例を挙げてみましょう。
ある新しいWebサイトのデザインAと、既存のデザインBの効果を比較するためにA/Bテストを実施したとします。コンバージョン率を指標とし、大規模なサンプルサイズで統計的検定を行った結果、デザインAの方がデザインBよりも統計的に有意にコンバージョン率が高いという結果が得られました(${p < 0.05}$)。
しかし、効果量を計算してみると、その差はごくわずか 0.1% だったとします。この場合、統計的には有意差があるものの、ビジネス的な視点で見ると、0.1%の改善のために大規模なサイトリニューアルを行う価値があるかどうかは疑問が残りますよね。
統計的有意性は「差があるかどうか」を教えてくれますが、「どのくらい差があるのか」、つまり効果の大きさは効果量によって評価する必要があります。
2. 効果量の種類 – d族効果量とr族効果量、そしてCohen’s h
効果量には様々な種類がありますが、大きく分けてd族効果量とr族効果量の2つに分類できます。
2.1. d族効果量 – 平均値の差に基づく効果量
d族効果量は、主に2群間の平均値の差を評価する際に用いられます。代表的なd族効果量として、Cohen’s d と Hedges’ g があります。Cohen’s d は、2群間の平均値の差を標準偏差で割ることで算出される効果量です。
$${d=\frac{\mu_1-\mu_2}{\sigma}}$$
ここで、${\mu_1}$と ${\mu_2}$はそれぞれの群の母平均、${\sigma}$は母標準偏差を表します。実際には母集団のパラメータは未知であるため、標本統計量を用いて推定します。
$${d=\frac{\overline{X}_1-\overline{X}_2}{S_p}}$$
ここで、${\overline{X}_1}$と${\overline{X}_2}$はそれぞれの群の標本平均、${S_p}$はプールされた標準偏差(pooled standard deviation)を表します。プールされた標準偏差は、2群の標本標準偏差を統合したもので、以下の式で計算されます。
$${S_p=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}}$$
${n_1}$と ${n_2}$はそれぞれの群のサンプルサイズ、${S_1^2}$と${S_2^2}$とはそれぞれの群の不偏分散を表します。
Hedges’ g は、Cohen’s d のバイアスを修正した効果量です。特にサンプルサイズが小さい場合に、Cohen’s d は効果量を過大評価する傾向があるため、Hedges’ g が推奨されます。
Hedges’ g は、Cohen’s d に修正係数を掛けることで算出されます。
$${g=d×J}$$
修正係数${J}$は以下の式で計算されます。
$${J=1-\frac{3}{4df-1}}$$
ここで、${df}$は自由度(degrees of freedom)を表し、
$${df=n_1+n_2-2}$$
となります。
2.2. r族効果量 – 相関関係に基づく効果量
r族効果量は、主に変数間の関連の強さを評価する際に用いられます。
代表的なr族効果量として、相関係数${r}$、決定係数 ${R^2}$、偏イータ二乗${\eta^2_p}$などがあります。
相関係数 r は高校数学でもお馴染みですね。2つの連続変数間の線形関係の強さと方向を示す指標です。${-1}$から${+1}$までの値をとり、絶対値が大きいほど強い関係があることを示します。
- ${r = 1}$: 完全な正の相関
- ${r = -1}$: 完全な負の相関
- ${r = 0}$: 線形相関なし
あとは、軽くまとめます。
決定係数 ${R^2}$
回帰モデルにおいて、目的変数の変動のうち、説明変数によって説明できる割合を示す指標です。0から1までの値をとり、1に近いほど説明力が高いことを示します。相関係数 r の二乗として計算されます。
偏イータ二乗
分散分析において、要因が目的変数の変動にどの程度寄与しているかを示す効果量です。0から1までの値をとり、1に近いほど要因の影響が大きいことを示します。
2.3. Cohen’s h (コーエンのh) – 割合の差に基づく効果量
Cohen’s h は、2つの独立した群間の割合の差を評価する際に用いられる効果量です。特にカテゴリーデータの分析において有用です。Cohen’s h は、割合 ${p}$ を角度${\phi}$ に変換し、その差を計算することで算出されます。
比率のサンプルサイズ設計によく使うイメージです。実務だとこれを一番使うかなあと思います。
$${h=\phi_1-\phi_2}$$
ここで、角度 ${\phi}$は逆正弦変換によって計算されます。
アークサインですね。
$${\phi=2 arcsin(\sqrt{p})}$$
${p_1}$と${p_2}$をそれぞれの群の割合とすると、Cohen’s h は以下の式で計算されます。
$${\phi=2 (arcsin(\sqrt{p_1})-arcsin(\sqrt{p_2}))}$$
Cohen’s h は、割合の差を標準化することで、異なる割合間での比較を可能にします。
3. サンプルサイズ設計における効果量の役割
効果量は、サンプルサイズ設計において大事な役割を果たします。
そもそも前提として、必要なサンプルサイズは、効果量の大きさに大きく依存するからです。
効果量が大きい場合、少ないサンプルサイズでも統計的に有意な結果を得ることができます。一方、効果量が小さい場合、より多くのサンプルサイズが必要になります。
これは、検定力分析という考え方で説明できます。検定力とは、「真の効果がある場合に、統計的に有意な結果を検出できる確率」のことです。検定力を高く保つためには、適切なサンプルサイズを設定する必要があります。
サンプルサイズ設計を行う際には、一般的に以下の手順を踏みます。
- 有意水準の設定: 通常は0.05
- 検定力 の設定: 通常は0.8
- 効果量の見積もり
- 必要なサンプルサイズの算出
効果量の見積もりは、サンプルサイズ設計において難しいステップの一つです。効果量を過大評価すると、サンプルサイズが過小になり、検出力不足に陥る可能性があります。逆に、効果量を過小評価すると、サンプルサイズが過大になり、不要なコストがかかってしまう可能性があります。
そもそも、この効果量を事前に見積もっているケースはかなり稀です。ただ、適切なサンプルサイズを見積もるには適切なプロセスですね。
特に、効果量の最小値の検討は重要です。たとえ統計的に有意な差が出たとしても、効果量が非常に小さい場合、実務的な意味は乏しい可能性があります。ビジネス上の意思決定においては、統計的有意性だけでなく、効果の実質的な大きさを考慮する必要があります。