重回帰分析をわかりやすく解説 – 目的変数と複数の説明変数の関係を分析する手法
重回帰分析とOLS
重回帰分析は、1つの目的変数と複数の説明変数の間の関係を分析する手法です。
具体的な定義の前に、使い道を確認しておきましょう。
重回帰分析は、実務においてさまざまな分野で広く用いられている統計的手法です。例えば、マーケティングにおいては、製品の売上高を目的変数とし、価格、広告費用、季節変動などを説明変数としてモデル化することで、売上高に影響を与える要因を特定したり、将来の売上高を予測したりすることができます。
また、医療分野においては、患者の健康状態を目的変数とし、年齢、BMI、喫煙歴などを説明変数として用いることで、疾患発症リスクを評価したり、治療方針の決定に役立てたりすることができます。
この分析は、線形回帰分析の拡張版であり、以下の数式で表すことができます。
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \epsilon$$
\(y\)は目的変数、\(x_1, x_2, \ldots, x_k\)は説明変数、\(\beta_0, \beta_1, \ldots, \beta_k\)は未知のパラメータ、\(\epsilon\)は誤差項を表します。
説明変数と誤差項の相関については、こちらの内生性の議論が役に立つかもしれません。
この式は、目的変数\(y\)が説明変数\(x_1, x_2, \ldots, x_k\)の線形結合であることを示しています。
目的を確認しましょう。
分析の目的
最適なパラメータ\(\beta_0, \beta_1, \ldots, \beta_k\)を推定し、目的変数の予測や各説明変数の解釈を行うこと
これは、最小二乗法(OLS)を用いて行われます。
具体的には、残差平方和\(Q = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2\)を最小化する\(\beta_0, \beta_1, \ldots, \beta_k\)を求めます。
ここで、\(y_i\)は観測値、\(\hat{y}_i\)は予測値を表します。
この問題は、連立方程式を解くことで解くことができます。
$$\begin{pmatrix}
\sum x_{1i}^2 & \sum x_{1i}x_{2i} & \cdots & \sum x_{1i}x_{ki} \\
\sum x_{2i}x_{1i} & \sum x_{2i}^2 & \cdots & \sum x_{2i}x_{ki} \\
\vdots & \vdots & \ddots & \vdots \\
\sum x_{ki}x_{1i} & \sum x_{ki}x_{2i} & \cdots & \sum x_{ki}^2
\end{pmatrix}
\begin{pmatrix}
\beta_1 \\ \beta_2 \\ \vdots \\ \beta_k
\end{pmatrix} =
\begin{pmatrix}
\sum x_{1i}y_i \\ \sum x_{2i}y_i \\ \vdots \\ \sum x_{ki}y_i
\end{pmatrix}$$
この連立方程式を解くことで、最適なパラメータ\(\beta_0, \beta_1, \ldots, \beta_k\)が求められます。
また、重回帰分析におけるパラメータ推定値の解釈は、他の変数を一定として考える”部分”の影響を示すことに注意が必要です。
つまり、\(\beta_1\)は、他の説明変数\(x_2, \ldots, x_k\)を一定としたとき、\(x_1\)が1単位変化した際の\(y\)の変化量を示しています。この特性は、実務上の意思決定において重要な役割を果たします。
上記の最小二乗法によるパラメータ推定方法は、以下のように導出することができます。
まず、残差平方和\(Q = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2\)を最小化するための条件は、
$$\frac{\partial Q}{\partial \beta_j} = -2 \sum_{i=1}^{n} (y_i – \hat{y}_i)x_{ji} = 0 \quad (j = 0, 1, \ldots, k)$$
と表すことができます。
\(\hat{y}_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_k x_{ki}\)です。
この条件式を整理すると、先ほどの連立方程式が得られるというわけです。
多重共線性について
重回帰分析を実施する上で、前提条件として説明変数間の多重共線性がないことが重要です。
ちょっと発展的な内容ですので、上の重回帰分析の内容をガッツリ理解できたあとでOKです。
多重共線性(multicollinearity)は、重回帰分析において複数の説明変数間に強い線形関係がある状態を指します。
よくマルチコって呼ばれ、愛されています。
マルチコが存在すると、モデルの解釈が難しくなったり、推定結果が不安定になったりするという問題が生じます。
説明変数${x_1, x_2, \ldots, x_p}$の間に完全な線形関係がある場合、つまり下のような場合です。
$${\alpha_1 x_1 + \alpha_2 x_2 + \cdots + \alpha_p x_p = 0}$$
を満たす${\alpha_1, \alpha_2, \ldots, \alpha_p}$が${0}$以外に存在する場合を完全多重共線性と呼びます。
線形代数を齧ったことがある方であれば、理解いただけるかと思うのですが、デザイン行列${\mathbf{X}}$のランクは${p}$より小さくなり、${\mathbf{X}^{\top}\mathbf{X}}$の逆行列が存在しないため、OLSの正規方程式
${(\mathbf{X}^{\top}\mathbf{X})\boldsymbol{\hat{\beta}} = \mathbf{X}^{\top}\mathbf{y}}$
の解が一意に定まりません。
一方、完全ではないが強い線形関係がある場合を不完全多重共線性と呼びます。
このとき、${\mathbf{X}^{\top}\mathbf{X}}$の逆行列は存在しますが、その条件数(最大固有値と最小固有値の比)が大きくなります。
その結果、OLS推定量
$${\boldsymbol{\hat{\beta}} = (\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top}\mathbf{y}}$$
の分散が大きくなり、推定結果が不安定になります。
→OLS推定量の分散が大きくなるため、回帰係数の推定値が実際の値から大きく外れる可能性があります。極端な場合、回帰係数が爆発的に大きくなることもあります。
このとき、モデルの解釈が難しくなるだけでなく、予測精度も悪化します。
多重共線性の度合いを測る指標としては、分散拡大要因(VIF: Variance Inflation Factor)がよく用いられます。
${j}$$番目の説明変数${x_j}$のVIFは
$${VIF_j = \frac{1}{1-R_j^2}}$$
で定義されます。
ここで、${R_j^2}$は${x_j}$を他の説明変数で回帰したときの決定係数です。
VIFが大きい(例えば10以上)場合、多重共線性が疑われます。
ここまで見てきましたが、多重共線性を避けるために、実際の分析に先立ち、説明変数間の相関関係を確認し、必要に応じて変数選択を行うことが求められます。
多重共線性への対処法としては、
- 関連の強い説明変数を除去する
- 主成分分析などで説明変数を合成する
- リッジ回帰などの正則化手法を用いる
などがあります。
この辺りが参考になります。
まとめ
– 重回帰分析とは、1つの目的変数と複数の説明変数の関係を分析する手法
– 目的変数\(y\)と説明変数\(x_1, x_2, \ldots, x_k\)の関係は、以下の線形式で表される。
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \epsilon$$
\(\beta_0, \beta_1, \ldots, \beta_k\)は未知のパラメータ、\(\epsilon\)は誤差項
– 最小二乗法を用いて、残差平方和\(Q = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2\)を最小化するパラメータ\(\beta_0, \beta_1, \ldots, \beta_k\)を求める。これは以下の連立方程式を解くことで実現される。
$$\begin{pmatrix}
\sum x_{1i}^2 & \sum x_{1i}x_{2i} & \cdots & \sum x_{1i}x_{ki} \\
\sum x_{2i}x_{1i} & \sum x_{2i}^2 & \cdots & \sum x_{2i}x_{ki} \\
\vdots & \vdots & \ddots & \vdots \\
\sum x_{ki}x_{1i} & \sum x_{ki}x_{2i} & \cdots & \sum x_{ki}^2
\end{pmatrix}
\begin{pmatrix}
\beta_1 \\ \beta_2 \\ \vdots \\ \beta_k
\end{pmatrix} =
\begin{pmatrix}
\sum x_{1i}y_i \\ \sum x_{2i}y_i \\ \vdots \\ \sum x_{ki}y_i
\end{pmatrix}$$
– 実務上の活用例として、マーケティングでは売上高を目的変数、価格や広告費用などを説明変数とすることで、売上高に影響する要因の特定や将来予測に用いられる。
– 医療分野では、患者の健康状態を目的変数、年齢やBMIなどを説明変数とすることで、疾患発症リスクの評価や治療方針の決定に役立てられる。
– 分析前提として、説明変数間の多重共線性がないことが重要である。
– パラメータ推定値の解釈は、他の変数を一定とした”部分”の影響を示すことに注意が必要である。