【例題つき】固定効果推定と固定効果モデルについて解説|ランダム効果も添えて
まず、固定効果推定を行うのは「対象を複数時点で観察する」場合です。
社会科学の分野では、パネルデータ分析とよく言われています。
では、パネルデータ分析の時になぜ固定効果が必要な場合があるのでしょうか?
今回は、固定効果推定に加え、固定効果モデルの問題を解いてみようと思います。
固定効果(fixed effect)とは
例えば、対象100人が3年間で結婚するのかどうかを観察したい場合を考えてみましょう。
添字は、観察個体を表す\(i(1~100)\)と、時間を表す\(t(1~3)\)です。
$$Y(結婚してるかどうか) = β_1(就業率) + β_2(男性ダミー) + β_{3}(女性ダミー) +‥+u_{i1}.$$
のような式が考えられそうですが、定量化できないものは考えられないでしょうか。
例えば、その地域特有の結婚観や、宗教などが挙げられます。
これらは、説明変数になり得る、「就業率」や「就学率」に影響を与えそうです。
(〇〇地方の村では、男性は15歳までに家を出て働かなければならない→就業率は高め。)
定量化できそうにないので誤差項に置いていた「宗教や地域特有の風習」などが説明変数と相関を持つのは、説明変数への信頼度は大きく下がります。
これによって導き出された推定量は、下方にバイアスがあったり、上方にバイアスがあったりします。
これを欠落変数バイアスと言います。
こうした問題を解決するのが、複数時点間の固定効果推定です。
前述したような、「時間によって変化することはないが、説明変数と相関しそうなもの」を固定効果\(\alpha\)とおきます。
\(Y_{it}= \alpha_{i} + \beta_{t} X_{1it} + \beta_{2} X_{2it} + .. +\beta_{k} X_{k it} + u_{it}\) の式から、
各項から時間平均をとったものを引いてみます。
→すると、「固定効果としていた\(\alpha\)」は無くなりました。
なぜなら、\(\alpha\)は「時間を通じて変わらないもの」だからです。
この差をとったものを回帰分析につかえば、前よりも欠落変数の少ない状態で推定量に近づくということです。
回帰分析については、こちらをご覧ください。
クラスター構造に頑健な標準誤差
少し応用に入ります。
固定効果推定量の標準誤差は、異なる時点間の変数の相関関係に対応するので、クラスター構造に頑健な標準誤差と呼ばれます。
基本的に、時点\(t\)の変数と時点\(t+1\)の変数は自己相関する場合が多いです。(例:今日の気温と昨日の気温など)
この自己相関は系列相関とも呼ばれますが、肌感として誤差項の時効相関に関しては系列相関と呼んでいます。
最小二乗法の推定量の効率性のも関わる問題ですので、結構大事です。
【統計学】分散不均一だと何が問題なのか|不偏性とガウスマルコフ性について
こうした自己相関が存在すると、「独立で同一な分布に従う\((i.i.d)\)」の過程に基づく標準誤差は理論的に正当化されません。
つまり、基本的にはパネルデータ分析の場合には、クラスター構造に頑健な標準誤差を使用する必要があります。
時系列分析でいうクラスターとは?
では、パネルデータ分析における「クラスター」とは何を表しているのでしょうか。
今回は自己相関という言葉を使っているように、クラスター内には「すべて同一個体」が含まれます。
このクラスター内では、当然自己相関が成立し得ます。
今回のコンテンツで紹介した固定効果推定量は、クラスターの構造に頑健な標準誤差を持つので自己相関の心配は無くなります。
標準誤差が怪しい方は、【Standard Error】標準誤差を例題を通して解説。をご覧ください。
【例題1】
—
次のような時間ダミー\(T1\)が入った固定効果モデルを考えます。
$$Y_{it}=\alpha_i+\betaX_{it}+\epsiron_{it},I=1…N,t=1,2$$
\(t=2\)の時に\(T1=1\)で\(t=2\)の時に\(T_1=0\)となります。
このモデルに固定効果変換を適用させて得られる推定量と一階差分を適用させて得られる推定量の代償を比較してください。
—
【解説1】
ある条件の時に1を取り、そうでなければ0をとる変数をダミー変数と呼びます。
社会科学でよく使われるのは、時間ダミーの他にも性別ダミーや大卒ダミーなどがあります。
まずは問題の指示通りに固定効果変換をしてみましょう。
①固定効果変換を行う
$$\dot{Y}_{it}=\lambda_1(T1_{it}-0.5)+\beta_1(X_{it}-\overline{X}_{I})+(u_{it}-\overline{u}_{i})$$
こんな感じですね。各平均は、時間平均をとっているので添字のtは消えて、個体を識別するiだけ残ります。時間ダミーに関しては、0+1を2で割っているので0.5です。また、固定効果は時間によって変動しないので平均を引くと相殺されます(一番大事)。
②左辺を整理する
$$\dot{Y}_{it}=Y_{it}-\overline{Y}_{i}$$
右辺と同じように、左辺のYも時間平均を引いている形になります。
$$\dot{Y}_{it}=Y_{it}-\frac{1}{2}(Y_{i1}+Y_{i2})$$
もう少し時間平均を分解すると上のようになります。t=1の場合とt=2の場合に分けて和をとって平均しただけです。
$$t=1,$$\dot{Y}_{i1}=Y_{i1}-\frac{1}{2}(Y_{i1}+Y_{i2})=\frac{1}{2}(Y_{i1}+Y_{i2})$$
$$t=2,$$\dot{Y}_{i2}=Y_{i2}-\frac{1}{2}(Y_{i1}+Y_{i2})=\frac{1}{2}(Y_{i2}-Y_{i1})$$
添字に注目してみてください。\(t=1\)と\(t=2\)の場合で左辺の値が変わることがわかりました。
③右辺を整理する
仮にt=1の時の右辺も考えてみましょう。右辺の括弧の中身も左辺のように和をとってあげると同じ形になります。
$$t=1,\frac{1}{2}(Y_{i1}-Y_{i2})=\frac{1}{2}λ_1+\frac{1}{2}(X_{i1}-X_{i2})+\frac{1}{2}(u_{i1}-u_{i2})$$
どの括弧の中身も\(t=1\)の時の値から\(t=2\)の時の値を引いています。
これは時点1から時点2への変化量と考えて、以下のように表すことにします。
$$t=1,ΔY_{i}=λ_1+β_1ΔX_i+Δu_i$$
省略しますが、\(t=2\)の時も全く同じ式になります。
④固定効果推定
固定効果推定とは、次の目的関数を最小化する\(\beta\)を求めるものです。
仮に目的関数を\(Q(\lambda_1,\beta_1)\)と置いています。
時間の和だけ求められそうです。
\(t=1\)の時と\(t=2\)の時にバラします。
平方の中身は符号を逆転させても良いので以下のようになりました。
⑤一階差分推定量
\(t=1\)の場合も\(t=2\)の場合も同じ固定効果変換が成り立つので、\(u\)を求める式から残差平方和を求めてあげます。
④と⑤の式を比べると\(QFD(\lambda,\beta) = 2 QFE(\lambda,\beta)\)となりました。お互いの式を最小化する\(\beta\)が推定量になります。同じ目的関数から得られる推定量は同じなので大小関係はなく値は等しいです。
【例題2】
—
次のような固定効果モデルを考えてみましょう。
$$Y_{it}=\alpha_i+\betaX_{it}+\epsiron_{it},I=1…N,t=1,,,T$$
固定効果推定量を計算する際に、\(X_{it}=X_{it}-\overline{X}_i\)のように右辺に固定効果変換を行いますが、左辺の\(Y_{it}\)だけ固定効果変換をせずに、正しく\(\beta\)を推定できるでしょうか?
—
【解説】
やり方としては、固定効果変換をちゃんとおこなった場合の推定量とYには固定効果変換を行わなかった時の推定量の差をとって、
0にならなければ「正しく推定できてはいない」ということになります。
①固定効果変換を左辺も右辺も行なった場合の推定量
こうなります。単回帰分析の時に、「定数項がない場合の推定量」を知っておけばすぐに理解できると思います。
④固定効果変換を右辺にしか行わなかった時の推定量
やり方は変わりません。
\(Y\)には時間平均を引いていないのでそのまま\(Y_{it}\)になります。
ぱっと見①と②は違うように見えます。
③推定量の差をとる
分母は同じなので、分子のみに注目します。
両者の差は異常になります。繰り返しになりますが、この差が0であれば左辺に固定効果変換をやってもやらなくても数式的に推定量に変わりはないという結果になります。では丁寧に展開していきましょう。
第二項に関してはtの文字は存在しないし、時間の和だけとってみましょう。
第1項のXは時間平均を取りました。少しテクニカルですが、平均とデータ量の積は和になります。
和のまま表すと第2項と形が似ないため、あえて時間平均と総時間数Tの積にしています。
というわけで第1項と第2項の値は同じになりました。差をとっているので推定量の差は0です。
よって解答としては、「Yに固定効果変換を行わなくても、おこなった場合の推定量と変わらない」となります。
ランダム効果(random effect)とは
固定効果をこれまで扱ってきましたが、補足としてランダム効果について解説いたします。
固定効果との違いとしては、ランダム効果は、「説明変数と相関しない」という仮定を置いている点で、固定効果と異なります。
このような割と無理な仮定が置かれているため、固定効果を扱ったモデルの方が、ランダム効果を扱ったモデルよりも信憑性が高いと言われています。
ちなみに固定効果とランダム効果のどちらも入っているモデルは「混合効果モデル mixed effect model」と言われています。
さて、このランダム効果はどのように扱えば良いのでしょうか。
上のように普通に誤差項として扱うことができます。
このまま\(\beta_1\)から\(\beta_k\)までをOLS推定をするのが良さそうです。
この場合、全ての観察個体と時点(t)を一括してまとめ、サンプルサイズがiの全体とtの全体の積になります。
\(i\)が\(1~N\)、\(t\)が\(1~T\)ならば、サンプル数は\(NT\)になります。
このパネルデータにおいても、観察した個体と時点を一括してまとめたOLS推定量を「プールされたOLS推定量」と言います。
OLS推定では、「誤差項と説明変数は相関しない」という仮定をおいていますが、もし相関している場合には欠落変数のバイアスから推定量は一致性を持ちません。
話が戻ってしまいますが、この欠落変数の問題をできるだけ解決するために「固定効果推定」を行うわけです。
一致性(consistency)
一致性とは、サンプルサイズが十分大きければ、推定量が真の値に一致するということです。
非常に便利な性質の一つであり、最尤推定量の性質でもあります。
最尤推定量の性質としては、
・一致性
・漸近正規性
・不変性
が挙げられます。
詳しくは、以下のコンテンツをご覧くださいませ。
具体例を挙げると、「サンプル数を十分多くとり、池にいる魚の全長の平均をOLS推定したら30cmでした。」→「実際に母集団平均は30cmであるといえる」
一般に一致性のある推定量のことを一致推定量と言います。
脱線しましたが、無理な仮定はあるものの、ランダム効果推定量は一致性が担保されているということです。