【汎用性抜群】尤度比検定を解説します

尤度比検定とは、どのような統計モデルであっても利用可能な統計モデルの検定です。

以下のような題材を扱おうと思います。全くの架空のデータであり、フィクションです。

今回は、一般化線形モデル(GLM)を扱うので怪しい方は以下のコンテンツを見ておくことをお勧めします。

【GLM】一般化線形モデルを解説(統計モデル編)

Story

大学卒業経験と就業年数は、個人の年収とどのような関係があるのか」

以下のようなデータを扱います。被験者は100人いるとします。大卒50人と高卒50人を無作為に選びました。

x:個人iの就業年数。整数型(int)

y:個人iの直近の年収。単位は円。整数型(int)

c:個人iが大卒資格があるかどうか。Yなら大卒、Nなら高卒です。因子型(factor)

データを見てみましょう。

data <- read.csv("income.csv")
data

data$x
data$y
data$c

個人iの就業年数

個人iの年収

個人iが大卒かどうか

前回のコンテンツで説明した通り、データ名$カラム名で、列のデータだけ出力できます。

前回の記事:【GLM】一般化線形モデルを解説(統計モデル編)

このデータを使って、大卒経験と就業年数が、個人iの年収にどのように関係してくるのかを分析します。

ちなみに、高卒50人を「コントロール群」と呼びます。

尤度比検定の準備

今回は、以下のようなモデルを比較したいと思います。今回は、ある個人iにおいての年収がyiである確率p(yi | λi)は、ポアソン分布に従うとします。

モデル1:定数項と就業年数xiで、yを表したモデル。パラメーター数は2。

このモデルでは、大卒経験は無視しています。

ちなみに、λiは個人iの平均年収です。

まず、帰無仮説として「大卒資格の有無は個人の年収に関係がない」を設定します。数式に表すと、

今回棄却したい(否定したい)仮説は、モデル1です。

モデル2:定数項と就業年数xiと大卒経験有無cで、yを表したモデル。パラメーター数は3。

このモデルは、大卒資格の有無を考慮しています。

帰無仮説であるモデル1に対して、モデル2を対立仮説と言います。

cの係数であるβ3は0ではないので、大卒資格は+であれ-であれ年収に影響があるということです。

*ちなみに、ある係数を0にするとモデル同士が一致するモデルをネストしているといいます。
尤度比検定はネストしているモデル同士を比較検討する統計モデル検定の一つです。

まず、モデル1(帰無仮説)とモデル2(対立仮説)の最大対数尤度を求めてみましょう。

CODE

ひとまずグラフを書いてみましょう。as.factorで因子型に変換しています。

plot(data$x, data$y, pch = c(21,19)[as.factor(data$c)])

legend("topleft", legend = c("N", "Y"),pch = c(21,19))

ここでは、因子である大卒資格データもグラフに含めています。

大卒資格のない白丸のいくつかは、かなり年収が低い印象を受けます。

【モデル1(帰無仮説)の推定】

fit <- glm(y ~ x, data = data, family = poisson(link = log))
fit
logLik(fit)

glm()でGLMによる回帰分析を行います。今回はx+cとせずに、xのみです。

interceptは定数項のことです。推定結果は以下のようになります。

> logLik(fit)

'log Lik.' -2445.33 (df=2)

最大対数尤度は-2445.33になりました。

【モデル2(対立仮説)の推定】

fit.college <- glm(y ~ x+c, data = data, family = poisson(link = log))
fit.college
logLik(fit.college)

モデル1のコードと比べると、x+cになっています。

出力結果は以下の通りです。

cの係数は0.05966になりました。式にすると以下の通りになります。

正の数なので、「大卒資格は年収にプラスの影響がある」ということになります。

> logLik(fit.college)
'log Lik.' -2406.12 (df=3)

対立仮説についても、最大対数尤度を見ます。-2406.12でした。

 

尤度比検定(likelihood ratio test)

尤度比検定は、帰無仮説の最大対数尤度から対立仮説の最大対数尤度の差に−2をかけたものを使います。

また、最大尤度の比の対数に−2をかけたものも同値です。対数なので、割り算は引き算になります。

これは、【良いモデルとは】AIC(赤池情報量基準)について。で登場した「逸脱度」の差です。

そして、この検定統計量は自由度1のカイ二乗分布に従います

自由度は帰無仮説の制約数によります。

今回は、β3の値が制約されているだけなので1です。β3=β4=0なら自由度2です。

 -2*(logLik(fit)-logLik(fit.college))
'log Lik.' 78.4204

実際に計算してみると、検定統計量は78.4204でした。

実際にカイ二乗分布表を見てみましょう。

自由度m α0.990.9750.950.050.0250.01
10.000160.000980.00393.845.026.63
20.0200.0510.105.997.389.21
30.110.220.357.819.3511.34
40.300.480.719.4911.1413.28
50.550.831.1511.0712.8315.09

有意だと何が言える

95%有意水準で検定すると、検定統計量が3.84を上回ると帰無仮説は棄却されます。(つまり嬉しい)

78.04>3.84なので余裕です。「大卒資格には年収には影響がある」ということがわかりました。

最尤推定の際に追加した特徴量(大卒資格)は、出力に対してある程度の寄与があるということになります。

-Udemy-のご紹介

データサイエンスやプログラミングに興味がある方におすすめなのが、Udemyと呼ばれる世界最大級のオンライン学習プラットフォームです。

Udemyは、世界中の学びたい人と教えたい人をオンラインでつなぐサービスです。

つまり、講師は企業ではなく、一般のエンジニアやデータサイエンティスト、デザイナーです。

講座カテゴリー

  • Pythonなど、機械学習プログラミング言語
  • Javaなど、Webアプリケーション言語
  • Webデザイン(HTML&CSS/JavaScript)
  • Excel
  • マーケティング

特に最近ではAI・データサイエンスなど先端ITの講座が人気を博しております。気になる方は以下のボタンからご覧ください。

ジャンルが豊富で学びたい講座がきっとみつかる

受講者数講師数講座数
4,000万人70,000人約18.5万
2021年3月時点(Udemy)

世界中にサービスを展開しているため、サービスの規模は非常に大きいです。

AI・データサイエンスなど最先端のIT技術からプレゼンなどビジネススキルに関する講座まで 18.5万以上(※海外講座含む)あるため、自分が学びたい講座をみつけることができます。

きっとピッタリな講座が見つかるでしょう!

講座は、PC一台があればカフェでも学校でも職場でも受講することができます。

また倍速対応ができ、0.5〜2倍の変速機能で自分のペースで受講が可能です。

お手頃な価格帯

講座により、価格は大きく変わりますが、数千円台のものも多く、手を出しやすいです。

講座は一度購入すれば視聴期限なく受講でき、30日返金保証もついているので安心して始めることができます

こんな方におすすめ!

  • Webデザイナーになって、自由な生活を手に入れたい方。
  • プログラマーになって、本業以外の副収入を得たい方。
  • 自学自習じゃなかなか続かない方。
  • 資格習得や、スキルの向上により、今の年収をupさせたい方。

具体的には、以下のようなコースがあります。きっと良い講師に出会えるはずです。

 

FOLLOW ME !

PAGE TOP