【内生性の解決】操作変数法と2段階OLSをわかりやすく解説
こんにちは、青の統計学です!
今回は、操作変数法と二段階OLS について解説します。数学的背景も踏まえて、理解が深まる構成にしているのでぜひ最後までご覧ください。
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!
操作変数法と二段階OLS
操作変数法と二段階OLSは、内生性の問題を扱う手法として広く利用されています。
内生性とは、説明変数と誤差項の間に相関が存在するという問題で、この場合、OLSによる推定量は一致性を満たしません。
操作変数法は、この内生性を取り除くための有力なアプローチです。
内生性についてはこちらをどうぞ
適切な操作変数を見つけることができれば、この操作変数を使って内生変数を説明し、説明変数からの影響を操作変数を通じて間接的に推定することができます。
操作変数$Z$が満たすべき条件は2つあります。
操作変数$Z$を見つけられれば、内生変数$X$について$X$を$Z$で回帰した値を使用し、$Y$を$\hat{X}$で回帰することで一致な推定量を得ることができます。
一致性については、ここで補足しています。
さらっと言いましたが、これが二段階最小二乗法(2SLS)です。
具体的には、こんな感じです。
$$
\begin{align*}
&\text{第1段階}: X = \pi_0 + \pi_1 Z + v \\
&\text{第2段階}: Y = \beta_0 + \beta_1 \hat{X} + u
\end{align*}
$$
$\pi_1$と$\beta_1$はそれぞれ第1段階と第2段階での係数です。
操作変数法の重要な特徴は、同時方程式モデルにおいてパラメータの識別条件を満たすためである点にあります。
この操作変数がないと、供給関数と需要関数のパラメータを同時に一致して推定することはできません。
しかし、適切な操作変数があれば、これらのパラメータを識別することができます。
操作変数が満たす条件
まず、操作変数$Z$が満たすべき2つの条件について、さらに詳しく見ていきましょう。
1. 相関の条件 ($\text{Cov}(Z, X) \neq 0$)
この条件は、操作変数$Z$が内生変数$X$と相関していなければならないことを意味しています。
つまり、$Z$は$X$の変動の一部を説明できる変数でなければなりませんね。
これは、弱い操作変数の問題を回避するための条件です。
弱い操作変数とは、$Z$と$X$の相関が弱い場合を指します。
このような場合、$Z$は$X$の変動をうまく説明できないため、2SLSによる推定値の分散が大きくなり、推定精度が低下してしまいます。
弱い操作変数の問題は、標本サイズが小さい場合や、操作変数の変動が小さい場合に起こりがちです。
相関の条件を確認する一つの方法は、$X$を$Z$で回帰した際の決定係数($R^2$)や$F$統計量を見ることです。
$R^2$が小さい場合や$F$統計量が有意でない場合は、弱い操作変数の可能性があります。
例えば、賃金決定モデルにおいて教育年数を操作変数として用いる場合、教育年数と賃金の相関が弱ければ、弱い操作変数の問題が起こる可能性があります。
2. 排除の条件 ($\text{Cov}(Z, \epsilon) = 0$)
この条件は、操作変数$Z$が誤差項$\epsilon$と無相関でなければならないことを意味しています。
つまり、$Z$は$Y$に直接影響を与えてはいけません。
この条件が満たされない場合、$Z$は$Y$への影響を$X$を介さずに直接持つため、内生性を取り除くことができません。
この条件を満たすか否かは理論的な検討が重要です。
例えば、需要関数の推定において、供給ショックを操作変数として用いる場合、供給ショックは需要に直接影響を与えないと考えられるため、排除の条件を満たすと期待できます。
一方、排除の条件を満たさない操作変数を用いた場合、推定値は一致性を持たなくなります。
この場合、操作変数そのものを説明変数に含めるなどの対処が必要になります。
上記2つの条件を満たす適切な操作変数$Z$を見つけることができれば、2SLSによって一致な推定値を得ることができます。
ハウスマンの原理
操作変数に関する理論的な裏付け(適切な操作変数を利用することで内生変数の変動の一部を取り除き、一致推定量が得られること)は、ハウスマンの操作変数の原理に由来しています。
この原理は、内生変数の変動を2つの部分に分解することから導かれます。
1つは外生変数と相関のない部分であり、もう1つは外生変数と相関のある部分です。
前者の部分は誤差項と相関がないため、推定量の一致性に影響を与えません。
一方、後者の部分は誤差項と相関があり、一致性を損なう原因となります。
したがって、適切な操作変数を用いてこの後者の部分を取り除くことで、一致推定量が得られるのです。
日本語で説明してもわかりにくいと思うので、具体例を通して見てみましょう。
まず、次のような線形回帰モデルを考えましょう
$y = X\beta + u$
この辺りは大丈夫ですね。
$y$ は被説明変数、 $X$ は説明変数行列、 $\beta$ はパラメータベクトル、 $u$ は誤差項です。
さて、内生性の問題が存在する場合、$E[X’u] \neq 0$ となり、OLS推定量は一致性を持ちません。
ハウスマンの原理に基づき、説明変数 $X$ を以下のように分解します
$X = Z\Pi + v$
$Z$ は操作変数行列、 $\Pi$ は係数行列、 $v$ は誤差項です。
この分解により、$X$ の変動を2つの部分に分けることができます
- $Z\Pi$: 操作変数と相関がある部分
- $v$: 操作変数と相関がない部分
上で述べた通り、操作変数の条件は以下の通りでした。
- 関連性条件: $E[Z’X] \neq 0$ (操作変数は内生変数と相関がある)
- 排除条件: $E[Z’u] = 0$ (操作変数は誤差項と相関がない)
これらの条件下で、2段階最小二乗法(2SLS)を適用すると、一致推定量が得られます。
繰り返しになりますが、2SLSの手順は以下の通りです
- 第1段階: $X$ を $Z$ に回帰 $\hat{X} = Z(Z’Z)^{-1}Z’X$
- 第2段階: $y$ を $\hat{X}$ に回帰 $\hat{\beta}_{IV} = (\hat{X}’\hat{X})^{-1}\hat{X}’y$
この $\hat{\beta}_{IV}$ が一致推定量となります。
一致性の証明には、確率極限を用います。
$plim(\hat{\beta}{IV}) = plim[(\hat{X}’\hat{X})^{-1}\hat{X}’y]$ $= plim[(\hat{X}’\hat{X}/n)^{-1}(\hat{X}’y/n)]$ $= [plim(\hat{X}’\hat{X}/n)]^{-1}plim(\hat{X}’y/n)$ $= [plim(X’Z(Z’Z)^{-1}Z’X/n)]^{-1}plim(X’Z(Z’Z)^{-1}Z’y/n)$ $= [\Sigma{XZ}\Sigma_{ZZ}^{-1}\Sigma_{ZX}]^{-1}\Sigma_{XZ}\Sigma_{ZZ}^{-1}\Sigma_{Zy}$ $= \beta$
$\Sigma_{XZ}$, $\Sigma_{ZZ}$, $\Sigma_{ZX}$, $\Sigma_{Zy}$ はそれぞれ対応する変数の分散共分散行列の確率極限です。
適切な操作変数を用いることで、内生変数の変動のうち誤差項と相関のある部分を取り除き、一致推定量が得られることがわかりました!
具体例
具体的な計算例を見てみましょう。
例として、cigarette consumption(タバコの消費量)と身長の関係を推定したいとします。
しかし、cigarette consumptionには内生性の問題があり、OLSによる推定値は一致性を持ちません。
そこで、cigarette tax(タバコ税)を操作変数として用いることにします。
ここで、$Y$をheight、$X$をcigarette consumptionとします。
排除の条件を満たすと考えられるcigarette tax $Z$を操作変数として用いることにより、2SLSによる推定を行うことができます。
使用するデータは以下の通りです。
$$\begin{align*}
&Y = (170, 168, 175, 167, 172, \dots) \\
&X = (20, 15, 25, 18, 22, \dots) \\
&Z = (2.5, 1.8, 3.0, 2.1, 2.7, \dots)
\end{align*}$$
第1段階の回帰
$$X = \pi_0 + \pi_1 Z + v$$
この結果、$\pi_0 = 12.5$、$\pi_1 = 4.2$が得られたとします。
このとき、第2段階の回帰
$$Y = \beta_0 + \beta_1 \hat{X} + u$$
において、$\hat{X} = 12.5 + 4.2Z$を代入します。
この回帰を実行することで、$\beta_1$の一致な推定値を得ることができます。
このように、操作変数法は内生性の問題を扱う有力な手法ですが、適切な操作変数を見つけることが鍵となります。