内生性と外生性の概念と操作変数法による内生性の問題の解決方法をわかりやすく。
こんにちは、青の統計学です!
今回は、経済学の授業などでよく出るワード「内生性と外生性」 について解説します。
青の統計学では、noteで統計検定やG検定に関するチートシートを掲載しております。
こちらをクリック!
内生性と外生性
内生性と外生性は、データ分析や計量経済学の分野で重要な概念で、特に、因果推論や政策評価などの分野でも重要な役割を果たします。
適切な推定手法を用いることで、変数間の真の因果関係を明らかにし、より良い意思決定につなげることができます。
詳しくみていきましょう。
内生性
まず内生性について説明します。
内生性とは、説明変数と被説明変数の間に、観測されない第三の要因が存在し、その要因が両者に影響を与えている場合に発生する問題です。
つまり、説明変数と被説明変数の間の相関関係が、第三の要因によって引き起こされている可能性があります。
この場合、通常の最小二乗法による推定は一致性を持たなくなり、推定値に偏りが生じます。
数式で表すと、以下のようになります。
$$y = \beta_0 + \beta_1 x + \epsilon$$
ここで、\(y\)は被説明変数、\(x\)は説明変数、\(\epsilon\)は誤差項です。
しかし、もし\(x\)と\(\epsilon\)の間に相関があれば、つまり\(E[x\epsilon] \neq 0\)であれば、最小二乗推定量は一致性を持たなくなります。
これが内生性の問題です。
OLSについては、この辺りが参考になります。
外生性
一方、外生性とは、説明変数が誤差項と相関がない場合、つまり\(E[x\epsilon] = 0\)が成立する場合を指します。
この場合、最小二乗推定量は一致性を持ち、適切な推定値が得られます。
操作変数法
内生性の問題を解決するための代表的な方法として、操作変数法があります。
操作変数法では、内生変数\(x\)に相関しているが、誤差項\(\epsilon\)とは相関していない別の変数\(z\)(操作変数)を利用して、\(x\)の変動の一部分のみを使って\(y\)を説明します。
この方法は、\(z\)が適切な条件を満たしている場合、一致した推定量を得ることができます。
数式で表すと、操作変数\(z\)を用いた二段階最小二乗法は以下のようになります。
$$\begin{align*}
\text{第一段階:} \quad & x = \pi_0 + \pi_1 z + v \\
\text{第二段階:} \quad & y = \beta_0 + \beta_1 \hat{x} + u
\end{align*}$$
ここで、\(\hat{x}\)は第一段階で推定された\(x\)の値です。
この手法は、\(z\)が\(x\)と相関があり、かつ\(u\)とは相関がない場合、一致した推定量\(\hat{\beta}_1\)を得ることができます。
簡単に言いますが、操作変数を見つけるのは結構大変です。
まとめ
さて、ここまでで内生性と外生性の理解はできたでしょうか?
内生性と外生性は、回帰分析における識別問題の本質を捉える重要な概念です。
内生性が存在する場合、説明変数と誤差項の間に相関があり、最小二乗推定量は一致性を持たなくなります。
一方、外生性が成立すれば、推定量は一致性を持ちます。
具体的に、賃金関数の推定を例に考えてみましょう。被説明変数を賃金の対数\(y\)、説明変数を教育年数\(x\)とします。
$$y = \beta_0 + \beta_1 x + \epsilon$$
ここで、\(\epsilon\)は能力や努力などの観測されない要因を表します。
もし能力が高い人ほど、教育を受ける傾向にあれば、\(x\)と\(\epsilon\)の間に正の相関が生じ、\(E[x\epsilon] \neq 0\)となります。
つまり、内生性の問題が発生します。
このような場合、最小二乗推定量\(\hat{\beta}_1\)は上方に偏った推定値となり、教育の効果を過大評価してしまいます。
この内生性の問題を解決するために、操作変数法が有効です。
例えば、親の教育年数\(z\)を操作変数として用いることができます。
親の教育年数は子供の教育年数\(x\)に影響を与えますが、子供の能力\(\epsilon\)とは直接関係がないと考えられるためです。
操作変数\(z\)を用いた二段階最小二乗法は以下のようになります。
$$\begin{align*}
\text{第一段階:} \quad & x = \pi_0 + \pi_1 z + v \\
\text{第二段階:} \quad & y = \beta_0 + \beta_1 \hat{x} + u
\end{align*}$$
\(\hat{x}\)は第一段階で推定された教育年数の予測値です。
操作変数\(z\)が適切な外生性条件を満たせば、二段階最小二乗推定量\(\hat{\beta}_1\)は一致性を持ちます。
では、箇条書きで最後締めくくります。
– 内生性と外生性は、説明変数と被説明変数の間の因果関係を適切に推定する上で必要な概念(というか考え方)
– 内生性とは、説明変数と被説明変数の相関関係が第三の観測されない要因によって引き起こされている場合で、この場合、最小二乗法による推定は一致性を持たなくなる。数式で表すと、$$y = \beta_0 + \beta_1 x + \epsilon$$のとき、$E[x\epsilon] \neq 0$であれば内生性の問題が発生する。
– 外生性とは、説明変数が誤差項と相関がない場合、つまり$E[x\epsilon] = 0$が成立する場合を指す。
この場合、最小二乗推定量は一致性を持つ。
– 内生性の問題を解決する代表的な方法は操作変数法で、内生変数$x$に相関しているが誤差項$\epsilon$とは相関していない変数$z$(操作変数)を利用する。
数式は以下の通り
$$\begin{align*}
\text{第一段階:} \quad & x = \pi_0 + \pi_1 z + v \\
\text{第二段階:} \quad & y = \beta_0 + \beta_1 \hat{x} + u
\end{align*}$$