重回帰分析をわかりやすく解説 – 目的変数と複数の説明変数の関係を分析する手法
重回帰分析とOLS
重回帰分析は、1つの目的変数と複数の説明変数の間の関係を分析する手法です。
具体的な定義の前に、使い道を確認しておきましょう。
重回帰分析は、実務においてさまざまな分野で広く用いられている統計的手法です。例えば、マーケティングにおいては、製品の売上高を目的変数とし、価格、広告費用、季節変動などを説明変数としてモデル化することで、売上高に影響を与える要因を特定したり、将来の売上高を予測したりすることができます。
また、医療分野においては、患者の健康状態を目的変数とし、年齢、BMI、喫煙歴などを説明変数として用いることで、疾患発症リスクを評価したり、治療方針の決定に役立てたりすることができます。
この分析は、線形回帰分析の拡張版であり、以下の数式で表すことができます。
説明変数と誤差項の相関については、こちらの内生性の議論が役に立つかもしれません。
この式は、目的変数
目的を確認しましょう。
分析の目的
最適なパラメータ
これは、最小二乗法(OLS)を用いて行われます。
具体的には、残差平方和
ここで、
この問題は、連立方程式を解くことで解くことができます。
この連立方程式を解くことで、最適なパラメータ
また、重回帰分析におけるパラメータ推定値の解釈は、他の変数を一定として考える”部分”の影響を示すことに注意が必要です。
つまり、
上記の最小二乗法によるパラメータ推定方法は、以下のように導出することができます。
まず、残差平方和
と表すことができます。
この条件式を整理すると、先ほどの連立方程式が得られるというわけです。
多重共線性について
重回帰分析を実施する上で、前提条件として説明変数間の多重共線性がないことが重要です。
ちょっと発展的な内容ですので、上の重回帰分析の内容をガッツリ理解できたあとでOKです。
多重共線性(multicollinearity)は、重回帰分析において複数の説明変数間に強い線形関係がある状態を指します。
よくマルチコって呼ばれ、愛されています。
マルチコが存在すると、モデルの解釈が難しくなったり、推定結果が不安定になったりするという問題が生じます。
説明変数
を満たす
線形代数を齧ったことがある方であれば、理解いただけるかと思うのですが、デザイン行列
の解が一意に定まりません。
一方、完全ではないが強い線形関係がある場合を不完全多重共線性と呼びます。
このとき、
その結果、OLS推定量
の分散が大きくなり、推定結果が不安定になります。
→OLS推定量の分散が大きくなるため、回帰係数の推定値が実際の値から大きく外れる可能性があります。極端な場合、回帰係数が爆発的に大きくなることもあります。
このとき、モデルの解釈が難しくなるだけでなく、予測精度も悪化します。
多重共線性の度合いを測る指標としては、分散拡大要因(VIF: Variance Inflation Factor)がよく用いられます。
で定義されます。
ここで、
VIFが大きい(例えば10以上)場合、多重共線性が疑われます。
ここまで見てきましたが、多重共線性を避けるために、実際の分析に先立ち、説明変数間の相関関係を確認し、必要に応じて変数選択を行うことが求められます。
多重共線性への対処法としては、
- 関連の強い説明変数を除去する
- 主成分分析などで説明変数を合成する
- リッジ回帰などの正則化手法を用いる
などがあります。
この辺りが参考になります。
まとめ
– 重回帰分析とは、1つの目的変数と複数の説明変数の関係を分析する手法
– 目的変数
– 最小二乗法を用いて、残差平方和
– 実務上の活用例として、マーケティングでは売上高を目的変数、価格や広告費用などを説明変数とすることで、売上高に影響する要因の特定や将来予測に用いられる。
– 医療分野では、患者の健康状態を目的変数、年齢やBMIなどを説明変数とすることで、疾患発症リスクの評価や治療方針の決定に役立てられる。
– 分析前提として、説明変数間の多重共線性がないことが重要である。
– パラメータ推定値の解釈は、他の変数を一定とした”部分”の影響を示すことに注意が必要である。