【例題つき】固定効果推定と固定効果モデルについてわかりやすく解説|ランダム効果
固定効果(fixed effect)とは
まず、固定効果推定を行うのは「対象を複数時点で観察する」場合です。社会科学の分野では、パネルデータ分析とよく言われていますね。
まず固定効果推定を使うための、モチベーションから確認していきましょう。
例えば、対象100人が3年間で結婚するのかどうかを観察したい場合を考えてみましょう。
目的変数は、Y(結婚しているかどうか、ダミー変数)です。
添字は、観察個体を表す\(i=1…100\)と、時間を表す\(t=1..3\)です。
$${Y = \beta_1(就業率) + \beta_2(男性ダミー) + \beta_{3}(女性ダミー) +‥+u_{i1}}$$
のような式が考えられそうですが、定量化できない影響は考えられないでしょうか。
欠落変数バイアス
例えば、その地域特有の結婚観や、宗教などが挙げられます。
これらは、説明変数になり得る、「就業率」や「就学率」に影響を与えそうです。
(〇〇地方の村では、男性は15歳までに家を出て働かなければならない→就業率は高め。)
定量化できそうにないので誤差項に置いていた「宗教や地域特有の風習」などが説明変数と相関を持つのは、説明変数への信頼度は大きく下がります。つまり、推定された回帰係数$\beta_1, \beta_2, \beta_3$には、欠落変数の影響によるバイアスが生じてしまうのです。
例えば、$\beta_1$の推定値が真の値よりも過小評価されていたり(下方バイアス)、あるいは過大評価されていたり(上方バイアス)することがあります。
これによって導き出された推定量は、下方にバイアスがあったり、上方にバイアスがあったりします。
→これを欠落変数バイアスと言います。
固定効果推定
こうした問題を解決するのが、複数時点間の固定効果推定です。
前述したような、「時間によって変化することはないが、説明変数と相関しそうなもの」を固定効果\(\alpha\)とおきます。
$Y_{it} – Y_{i,t-1} = (\alpha_i + \beta_1 X_{1it} + … + \beta_k X_{kit} + u_{it}) – (\alpha_i + \beta_1 X_{1i,t-1} + … + \beta_k X_{ki,t-1} + u_{i,t-1})$
各項から時間平均をとったものを引いてみます。
これを整理すると、
$Y_{it} – Y_{i,t-1} = \beta_1 (X_{1it} – X_{1i,t-1}) + \beta_2 (X_{2it} – X_{2i,t-1}) + … + \beta_k (X_{kit} – X_{ki,t-1}) + (u_{it} – u_{i,t-1})$
となります。
→すると、「固定効果としていた\(\alpha\)」は無くなりました。
なぜなら、\(\alpha\)は「時間を通じて変わらないもの」だからですね。
この差をとったものを回帰分析につかえば、前よりも欠落変数の少ない状態で推定量に近づくということです。
一年周期の季節影響を取り除くために、昨対差分を見たりすると思うのですが、考え方はそれと同じです。
固定効果推定のメリット|クラスター構造に頑健な標準誤差
基本的に、時点\(t\)の変数と時点\(t+1\)の変数は自己相関する場合が多いです。(例:今日の気温と昨日の気温など)
この自己相関は系列相関とも呼ばれますが、肌感として誤差項の時効相関に関しては系列相関と呼んでいます。
同一の観測単位内の誤差 $u_{it}$ には、時間方向での相関が存在する可能性があります。例えば、同じ企業や地域の観測値は、時間的に依存している可能性が高いですよね。
こうした自己相関が存在すると、「独立で同一な分布に従う\((i.i.d)\)」の過程に基づく標準誤差は理論的に正当化されません。
つまり、通常の最小二乗法では、このような誤差の相関構造を考慮しないため、標準誤差の推定が適切ではなくなってしまうのです。
しかし、固定効果モデルでは、観測単位ごとの切片項 $\alpha_i$ を推定することで、同一観測単位内の誤差相関を自動的に取り込むことができます。
固定効果推定量の標準誤差は、異なる時点間の変数の相関関係に対応するので、クラスター構造に頑健な標準誤差と呼ばれます。
補足|時系列分析でいうクラスターとは?
では、パネルデータ分析における「クラスター」とは何を表しているのでしょうか。
今回は自己相関という言葉を使っているように、クラスター内には「すべて同一個体」が含まれます。
このクラスター内では、当然自己相関が成立し得ます。
今回のコンテンツで紹介した固定効果推定量は、クラスターの構造に頑健な標準誤差を持つので自己相関の心配は無くなります。
基本的にはパネルデータ分析の場合には、クラスター構造に頑健な標準誤差を使用する必要があります。
ランダム効果(random effect)とは
固定効果をこれまで扱ってきましたが、補足としてランダム効果について解説いたします。
固定効果との違いとしては、ランダム効果は、「説明変数と相関しない」という仮定を置いている点で、固定効果と異なります。
このような割と無理な仮定が置かれているため、固定効果を扱ったモデルの方が、ランダム効果を扱ったモデルよりも信憑性が高いと言われています。
ちなみに固定効果とランダム効果のどちらも入っているモデルは「混合効果モデル mixed effect model」と言われています。
さて、このランダム効果はどのように扱えば良いのでしょうか。
$Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + … + \beta_k X_{kit} + \alpha_i + u_{it}$
上のように普通に誤差項として扱うことができます。
このまま\(\beta_1\)から\(\beta_k\)までをOLS推定をするのが良さそうです。
この場合、全ての観察個体と時点(t)を一括してまとめ、サンプルサイズが${i}$の全体と${t}$の全体の積になります。
\(i\)が\(1~N\)、\(t\)が\(1~T\)ならば、サンプル数は\(NT\)になります。
このパネルデータにおいても、観察した個体と時点を一括してまとめたOLS推定量を「プールされたOLS推定量」と言います。
OLS推定では、「誤差項と説明変数は相関しない」という仮定をおいていますが、もし相関している場合には欠落変数のバイアスから推定量は一致性を持ちません。
この欠落変数の問題をできるだけ解決するために「固定効果推定」を行うわけです。
一致性(consistency)
一致性とは、推定量が真の値に収束するという性質です。統計的推定における大事な概念の1つです。
推定量が一致性を持つためには、以下の2つの条件が満たされる必要があります
- 推定量の期待値が真の値に収束する: $\lim_{n \to \infty} E[\hat{\theta}_n] = \theta$
- 推定量の分散が0に収束する:
$\lim_{n \to \infty} \text{Var}[\hat{\theta}_n] = 0$
$\hat{\theta}_n$は標本サイズnにおける推定量、$\theta$は真の値を表しています。
この性質を持つ推定量は、標本サイズが大きくなるにつれて真の値に近づいていきます。これは推定の精度が向上していくことを意味しています。
具体例を挙げると、「サンプル数を十分多くとり、池にいる魚の全長の平均をOLS推定したら30cmでした。」→「実際に母集団平均は30cmであるといえる」
一般に一致性のある推定量のことを一致推定量と言います。
脱線しましたが、無理な仮定はあるものの、ランダム効果推定量は一致性が担保されているということです。
青の統計学だと以下の記事がおすすめです。
固定効果推定の例題1
固定効果推定の問題を扱います。
レベルとしては、統計検定1級程度だと思います。
次のような時間ダミー\(T_1\)が入った固定効果モデルを考えます。
$$Y_{it}=\alpha_i+\lambda_tT_t+\beta X_{it}+\epsilon_{it},I=1…N,t=1,2$$
\(t=1\)の時に\(T_1=1\)で\(t=2\)の時に\(T_1=0\)となります。
このモデルに固定効果変換を適用させて得られる推定量と一階差分を適用させて得られる推定量の代償を比較してください。
【解説1】
ある条件の時に1を取り、そうでなければ0をとる変数をダミー変数と呼びます。
社会科学でよく使われるのは、時間ダミーの他にも性別ダミーや大卒ダミーなどがあります。
まずは問題の指示通りに固定効果変換をしてみましょう。
①固定効果変換を行う
$$\dot{Y}_{it}=\lambda_1(T_1-0.5)+\beta_1(X_{it}-\overline{X}_{I})+(u_{it}-\overline{u}_{i})$$
こんな感じですね。各平均は、時間平均をとっているので添字のtは消えて、個体を識別するiだけ残ります。時間ダミーに関しては、0+1を2で割っているので0.5です。
また、固定効果は時間によって変動しないので平均を引くと相殺されます(一番大事)。
②左辺を整理する
$$\dot{Y}_{it}=Y_{it}-\overline{Y}_{i}$$
右辺と同じように、左辺のYも時間平均を引いている形にします
$$\dot{Y}_{it}=Y_{it}-\frac{1}{2}(Y_{i1}+Y_{i2})$$
もう少し時間平均を分解すると上のようになります。t=1の場合とt=2の場合に分けて和をとって平均しただけです。
$${t=1,\dot{Y}_{i1}=Y_{i1}-\frac{1}{2}(Y_{i1}+Y_{i2})=\frac{1}{2}(Y_{i1}+Y_{i2})}$$
$${t=2,\dot{Y}_{i2}=Y_{i2}-\frac{1}{2}(Y_{i1}+Y_{i2})=\frac{1}{2}(Y_{i2}-Y_{i1})}$$
添字に注目してみてください。\(t=1\)と\(t=2\)の場合で左辺の値が変わることがわかりました。
③右辺を整理する
仮にt=1の時の右辺も考えてみましょう。右辺の括弧の中身も左辺のように和をとってあげると同じ形になります。
$$t=1,\frac{1}{2}(Y_{i1}-Y_{i2})=\frac{1}{2}λ_1+\frac{1}{2}(X_{i1}-X_{i2})+\frac{1}{2}(u_{i1}-u_{i2})$$
どの括弧の中身も\(t=1\)の時の値から\(t=2\)の時の値を引いています。
これは時点1から時点2への変化量と考えて、以下のように表すことにします。
$$t=1,ΔY_{i}=λ_1+β_1ΔX_i+Δu_i$$
省略しますが、\(t=2\)の時も全く同じ式になります。
④固定効果推定
固定効果推定とは、次の目的関数を最小化する\(\beta\)を求めるものです。
仮に目的関数を\(Q(\lambda_1,\beta_1)\)と置いています。
$${Q_{FE}(\lambda_1,\beta_1)=\sum_{i=1}^N\sum_{t=1}^2(Y_{it}-\lambda_1T_1-\beta_1X_{it})^2}$$
時間の和だけ求められそうです。
$$=\frac{1}{4}\sum_{i=1}^N (\Delta Y_i – \lambda_1 – \beta_1 \Delta X_i)^2 + \frac{1}{4}\sum_{i=1}^N (-\Delta Y_i + \lambda_1 + \beta_1 \Delta X_i)^2$$
\(t=1\)の時と\(t=2\)の時にバラします。
平方の中身は符号を逆転させても良いので以下のようになりました。
$${\frac{1}{2}\sum_{i=1}^N(\Delta Y_i-\lambda_1-\beta_1 \Delta X_i)^2}$$
⑤一階差分推定量
$${Q_{FD} (\lambda_1,\beta_1)=\sum_{i=1}^N(\Delta Y_i-\lambda_1-\beta_1 \Delta X_i)^2}$$
\(t=1\)の場合も\(t=2\)の場合も同じ固定効果変換が成り立つので、\(u\)を求める式から残差平方和を求めてあげます。
④と⑤の式を比べると\(QFD(\lambda,\beta) = 2 QFE(\lambda,\beta)\)となりました。お互いの式を最小化する\(\beta\)が推定量になります。同じ目的関数から得られる推定量は同じなので大小関係はなく値は等しいです。
【例題2】
次のような固定効果モデルを考えてみましょう。
$$Y_{it}=\alpha_i+\beta X_{it}+\epsilon_{it},I=1…N,t=1,,,T$$
固定効果推定量を計算する際に、\(X_{it}=X_{it}-\overline{X}_i\)のように右辺に固定効果変換を行いますが、左辺の\(Y_{it}\)だけ固定効果変換をせずに、正しく\(\beta\)を推定できるでしょうか?
【解説】
方針
固定効果変換をちゃんとおこなった場合の推定量とYには固定効果変換を行わなかった時の推定量の差をとって、0にならなければ「正しく推定できてはいない」ということを示す。
①固定効果変換を左辺も右辺も行なった場合の推定量
$$\hat{\beta_{proper}}=\frac{\sum_{i=1}^N\sum_{t=1}^T(X_{it}-\overline{X}_i)(Y_{it}-\overline{Y}_i)}{\sum_{i=1}^N\sum_{t=1}^T(X_{it}-\overline{X}_i)^2}$$
こうなります。
単回帰分析の時に、「定数項がない場合の推定量」を知っておけばすぐに理解できると思います。
②固定効果変換を右辺にしか行わなかった時の推定量
$$\hat{\beta_{improper}}=\frac{\sum_{i=1}^N\sum_{t=1}^T(X_{it}-\overline{X}_i)Y_{it}}{\sum_{i=1}^N\sum_{t=1}^T(X_{it}-\overline{X}_i)^2}$$
次もやり方は変わりません。
\(Y\)には時間平均を引いていないのでそのまま\(Y_{it}\)になります。
ぱっと見①と②は違うように見えますねえ
③推定量の差をとる
分母は同じなので、分子のみに注目します。
$${\sum_{i=1}^N\sum_{t=1}^T(X_{it}-\overline{X}_i)\overline{Y}_i}$$
繰り返しになりますが、この差が0であれば左辺に固定効果変換をやってもやらなくても数式的に推定量に変わりはないという結果になります。
では丁寧に展開していきましょう。
$${\sum_{i=1}^N\sum_{t=1}^T(X_{it}\overline{Y}_i)-\sum_{i=1}^N\sum_{t=1}^T(X_{i}\overline{Y}_i)}$$
第二項に関してはtの文字は存在しないし、時間の和だけとってみましょう。
$${\sum_{i=1}^N(TX_{i})\overline{Y}_i-T\sum_{i=1}^N(X_{i}\overline{Y}_i)}$$
第1項のXは時間平均を取りました。
少しテクニカルですが、平均とデータ量の積は和になります。
和のまま表すと第2項と形が似ないため、あえて時間平均と総時間数Tの積にしています。
というわけで第1項と第2項の値は同じになりました。差をとっているので推定量の差は0です。
よって解答としては、「Yに固定効果変換を行わなくても、おこなった場合の推定量と変わらない」となります。