大学数学

HOME
大学数学
重回帰分析をわかりやすく解説 – 目的変数と複数の説明変数の関係を分析する手法

07/13/2024 / 最終更新日時 : 10/30/2024 Blue 大学数学

重回帰分析をわかりやすく解説 – 目的変数と複数の説明変数の関係を分析する手法

重回帰分析とOLS

重回帰分析は、1つの目的変数と複数の説明変数の間の関係を分析する手法です。

具体的な定義の前に、使い道を確認しておきましょう。

重回帰分析は、実務においてさまざまな分野で広く用いられている統計的手法です。例えば、マーケティングにおいては、製品の売上高を目的変数とし、価格、広告費用、季節変動などを説明変数としてモデル化することで、売上高に影響を与える要因を特定したり、将来の売上高を予測したりすることができます。

また、医療分野においては、患者の健康状態を目的変数とし、年齢、BMI、喫煙歴などを説明変数として用いることで、疾患発症リスクを評価したり、治療方針の決定に役立てたりすることができます。

この分析は、線形回帰分析の拡張版であり、以下の数式で表すことができます。

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \epsilon$$

$y$は目的変数、$x_1, x_2, \ldots, x_k$は説明変数、$\beta_0, \beta_1, \ldots, \beta_k$は未知のパラメータ、$\epsilon$は誤差項を表します。

説明変数と誤差項の相関については、こちらの内生性の議論が役に立つかもしれません。

内生性と外生性の概念と操作変数法による内生性の問題の解決方法をわかりやすく。

この式は、目的変数$y$が説明変数$x_1, x_2, \ldots, x_k$の線形結合であることを示しています。

目的を確認しましょう。

分析の目的

最適なパラメータ$\beta_0, \beta_1, \ldots, \beta_k$を推定し、目的変数の予測や各説明変数の解釈を行うこと

これは、最小二乗法（OLS）を用いて行われます。

具体的には、残差平方和$Q = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$を最小化する$\beta_0, \beta_1, \ldots, \beta_k$を求めます。

ここで、$y_i$は観測値、$\hat{y}_i$は予測値を表します。

この問題は、連立方程式を解くことで解くことができます。

$$\begin{pmatrix}
\sum x_{1i}^2 & \sum x_{1i}x_{2i} & \cdots & \sum x_{1i}x_{ki} \\
\sum x_{2i}x_{1i} & \sum x_{2i}^2 & \cdots & \sum x_{2i}x_{ki} \\
\vdots & \vdots & \ddots & \vdots \\
\sum x_{ki}x_{1i} & \sum x_{ki}x_{2i} & \cdots & \sum x_{ki}^2
\end{pmatrix}
\begin{pmatrix}
\beta_1 \\ \beta_2 \\ \vdots \\ \beta_k
\end{pmatrix} =
\begin{pmatrix}
\sum x_{1i}y_i \\ \sum x_{2i}y_i \\ \vdots \\ \sum x_{ki}y_i
\end{pmatrix}$$

この連立方程式を解くことで、最適なパラメータ$\beta_0, \beta_1, \ldots, \beta_k$が求められます。

また、重回帰分析におけるパラメータ推定値の解釈は、他の変数を一定として考える”部分”の影響を示すことに注意が必要です。

つまり、$\beta_1$は、他の説明変数$x_2, \ldots, x_k$を一定としたとき、$x_1$が1単位変化した際の$y$の変化量を示しています。この特性は、実務上の意思決定において重要な役割を果たします。

上記の最小二乗法によるパラメータ推定方法は、以下のように導出することができます。

まず、残差平方和$Q = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$を最小化するための条件は、

$$\frac{\partial Q}{\partial \beta_j} = -2 \sum_{i=1}^{n} (y_i – \hat{y}_i)x_{ji} = 0 \quad (j = 0, 1, \ldots, k)$$

と表すことができます。

$\hat{y}_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_k x_{ki}$です。

この条件式を整理すると、先ほどの連立方程式が得られるというわけです。

多重共線性について

重回帰分析を実施する上で、前提条件として説明変数間の多重共線性がないことが重要です。

ちょっと発展的な内容ですので、上の重回帰分析の内容をガッツリ理解できたあとでOKです。

多重共線性(multicollinearity)は、重回帰分析において複数の説明変数間に強い線形関係がある状態を指します。

よくマルチコって呼ばれ、愛されています。

マルチコが存在すると、モデルの解釈が難しくなったり、推定結果が不安定になったりするという問題が生じます。

説明変数${x_1, x_2, \ldots, x_p}$の間に完全な線形関係がある場合、つまり下のような場合です。

$${\alpha_1 x_1 + \alpha_2 x_2 + \cdots + \alpha_p x_p = 0}$$

を満たす${\alpha_1, \alpha_2, \ldots, \alpha_p}$が${0}$以外に存在する場合を完全多重共線性と呼びます。

線形代数を齧ったことがある方であれば、理解いただけるかと思うのですが、デザイン行列${\mathbf{X}}$のランクは${p}$より小さくなり、${\mathbf{X}^{\top}\mathbf{X}}$の逆行列が存在しないため、OLSの正規方程式

${(\mathbf{X}^{\top}\mathbf{X})\boldsymbol{\hat{\beta}} = \mathbf{X}^{\top}\mathbf{y}}$

の解が一意に定まりません。

一方、完全ではないが強い線形関係がある場合を不完全多重共線性と呼びます。

このとき、${\mathbf{X}^{\top}\mathbf{X}}$の逆行列は存在しますが、その条件数(最大固有値と最小固有値の比)が大きくなります。

その結果、OLS推定量

$${\boldsymbol{\hat{\beta}} = (\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top}\mathbf{y}}$$

の分散が大きくなり、推定結果が不安定になります。

→OLS推定量の分散が大きくなるため、回帰係数の推定値が実際の値から大きく外れる可能性があります。極端な場合、回帰係数が爆発的に大きくなることもあります。

このとき、モデルの解釈が難しくなるだけでなく、予測精度も悪化します。

多重共線性の度合いを測る指標としては、分散拡大要因(VIF: Variance Inflation Factor)がよく用いられます。

${j}$$番目の説明変数${x_j}$のVIFは

$${VIF_j = \frac{1}{1-R_j^2}}$$

で定義されます。

ここで、${R_j^2}$は${x_j}$を他の説明変数で回帰したときの決定係数です。

VIFが大きい(例えば10以上)場合、多重共線性が疑われます。

ここまで見てきましたが、多重共線性を避けるために、実際の分析に先立ち、説明変数間の相関関係を確認し、必要に応じて変数選択を行うことが求められます。

多重共線性への対処法としては、

関連の強い説明変数を除去する
主成分分析などで説明変数を合成する
リッジ回帰などの正則化手法を用いる

などがあります。

この辺りが参考になります。

【説明変数の相関】多重共線性を解説します。

【論文解説】多重共線性は回帰分析にどのような影響を与えるのか

まとめ

– 重回帰分析とは、1つの目的変数と複数の説明変数の関係を分析する手法
– 目的変数$y$と説明変数$x_1, x_2, \ldots, x_k$の関係は、以下の線形式で表される。
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \epsilon$$
$\beta_0, \beta_1, \ldots, \beta_k$は未知のパラメータ、$\epsilon$は誤差項
– 最小二乗法を用いて、残差平方和$Q = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$を最小化するパラメータ$\beta_0, \beta_1, \ldots, \beta_k$を求める。これは以下の連立方程式を解くことで実現される。
$$\begin{pmatrix}
\sum x_{1i}^2 & \sum x_{1i}x_{2i} & \cdots & \sum x_{1i}x_{ki} \\
\sum x_{2i}x_{1i} & \sum x_{2i}^2 & \cdots & \sum x_{2i}x_{ki} \\
\vdots & \vdots & \ddots & \vdots \\
\sum x_{ki}x_{1i} & \sum x_{ki}x_{2i} & \cdots & \sum x_{ki}^2
\end{pmatrix}
\begin{pmatrix}
\beta_1 \\ \beta_2 \\ \vdots \\ \beta_k
\end{pmatrix} =
\begin{pmatrix}
\sum x_{1i}y_i \\ \sum x_{2i}y_i \\ \vdots \\ \sum x_{ki}y_i
\end{pmatrix}$$
– 実務上の活用例として、マーケティングでは売上高を目的変数、価格や広告費用などを説明変数とすることで、売上高に影響する要因の特定や将来予測に用いられる。
– 医療分野では、患者の健康状態を目的変数、年齢やBMIなどを説明変数とすることで、疾患発症リスクの評価や治療方針の決定に役立てられる。
– 分析前提として、説明変数間の多重共線性がないことが重要である。
– パラメータ推定値の解釈は、他の変数を一定とした”部分”の影響を示すことに注意が必要である。

FOLLOW ME ！

@blue_statistics

Blue

青の統計学は、東京大学を卒業後、事業会社でデータサイエンティストとして勤務する筆者が運営する、AI・データサイエンスの総合学習メディアです。自身の大学時代の経験から、教科書だと分かりにくかった事項を克服でき、かつ実務で活かせる知識を楽しく学べるように、インタラクティブ学習ツール「DS Playground」を開発しており、大学での講義の材料としても利用されています。Xフォロワー1万人を突破！

カテゴリー: 大学数学、社会科学、統計学基礎、統計検定

タグ: 回帰分析

ベイズ

07/11/2024

大学数学

07/14/2024

重回帰分析をわかりやすく解説 – 目的変数と複数の説明変数の関係を分析する手法

重回帰分析とOLS

分析の目的

多重共線性について

まとめ

相互情報量の定義とその重要性をわかりやすく解説 | KLダイバージェンス

F検定とは？F分布も含めてわかりやすく解説｜分散分析