【モデル選択】AIC(赤池情報量基準)についてわかりやすく解説
1:AICとは何か
AICは「複数の統計モデルのうち、どれがより予測に適しているか」を評価するために考案された指標です。
もし「当てはまりの良さ」だけを追求すると、パラメータを増やせば増やすほどモデルはデータにぴったり合ってしまい、現実にはあまり意味をなさないような複雑なモデルに陥る恐れがあります。
過学習というやつですね。
そこでAICは、当てはまりの良さとモデルの複雑さを総合的に判断し、具体的には、同じ条件で再度データを取得したとき、先に作ったモデルがどれほど新しいデータに対しても当てはまるかを評価基準とします。

言い換えれば汎化性能が高いかどうか、を評価基準とします。
たとえば池にいる魚の体長分布を推定するために、50匹を釣り上げてモデル化したとします。新たなタイミングでもう一度50匹を取り出したときにもよく適合するなら、「予測が良いモデル」と考えられます。
AICはこの新しいデータにも対応できるかという視点から情報量基準を設計しています。
1.1 AICが重視する「予測性能」
AICが前提としているのは「データを生成する真のモデルなど分からないかもしれないが、それでも新しいデータをよく予測できるモデルを選びたい」という考え方です。
統計学の教科書では、モデルの良し悪しを「真のモデルにどれだけ近いか」という観点で論じることがありますが、実際の応用場面ではそもそも真のモデルが存在するかすら怪しい場合も多々あります。

AICはこうしたリアルな状況に適応するため、データへのフィット具合だけでなく、パラメータ数の多さによる過剰適合を避けるよう工夫されています。
2:AICの数式と意味
AICは次の式で定義されます。
$${AIC = -2 \log L + 2k}$$
- ${\log L}$は 最大対数尤度(モデルがデータをどの程度うまく説明できているかを示す指標)
- ${k}$ は 推定するパラメータ数(モデルがどれだけ複雑かを示す指標)
を表します。
モデルを評価するときには「どの程度、観測データをよく説明できるか」という“当てはまりの良さ”が重要視されます。これを評価する典型的な手段の一つが、対数尤度(とくに最大対数尤度)です。
観測データに対する「モデルの尤度」を対数変換した値を${\log L}$とし、これが大きいほど「当てはまりが良い」と考えられます。
備考:平均対数尤度
統計学では、サンプルサイズを無限に増やすと真の“平均対数尤度”に近づく、という考え方があります。
しかし、現実にはサンプル数は有限なので、そのままでは「平均対数尤度」を正確には測れません。
そこで、最大対数尤度をベースにしながらパラメータ数分だけのバイアス補正(=ペナルティ)を掛けてあげることで、「真に新しいデータへも適応できるかどうか」を近似的に評価しているのがAICのお気持ちです。
2.1 第1項:${-2 \log L}$
${-2 \log L}$ は「モデルの当てはまりの悪さ」を表す指標で、逸脱度(Deviance) とも呼ばれます。
- ${\log L}$ が大きいほどデータへの当てはまりは良い
- ${-2 \log L}$は小さくなる。
- 当てはまりの悪いモデルほど${\log L}$は小さい
- → ${-2 \log L}$は大きくなる。
したがって、第1項が大きいと「観測データにうまくフィットしていない」ことを意味します。
2.2 第2項:${2k}$
第2項 ${2k}$ は、パラメータ数 ${k}$ による複雑さへのペナルティを与える部分です。
- パラメータ数が多いほどモデルは柔軟にデータへフィットできる
- 当てはまりは良くなりやすい
- しかし、過剰にパラメータを増やすと本当に必要な部分以上にフィットしてしまい、新しいデータに対する汎化性能が落ちる
AICでは、パラメータ数に比例した罰則を与えることで、不要なほどパラメータを増やす行為を抑制し、ほどよく複雑なモデルに落ち着きやすくしているのです。
パラメータを増やせば指標はよくなる、という話は決定係数の話でもしましたね。
そのため、自由度調整済みの決定係数が使われていました。
ここまでのまとめ
「パラメータを増やした複雑なモデルは、現在手元にあるデータにはよく合うかもしれないが、新しいデータには合わないかもしれない」というリスクを考慮している。AICは、推定されたモデルが本質的な構造を捉えているかどうかを推し量り、これを「予測の良さ」と結びつけて評価
ARモデル(自己回帰モデル)の次数決定例
AICがよく使われる場面として、時系列解析のARモデル(自己回帰モデル)の次数${p}$を決定する例が挙げられます。
AR(${p}$)とは過去${p}$時点の値を説明変数として取り入れるモデルであり、たとえば
$${AR(p): Y_t = \beta_0 + \beta_1 Y_{t-1} + \beta_2 Y_{t-2} + \dots + \beta_p Y_{t-p} + \epsilon_t}$$
のように書けます。このとき、次数${p}$の決め方として
$${AIC(p) = \log\Bigl(\frac{RSS(p)}{T}\Bigr) + (p+1)\frac{2}{T}}$$
を計算して、${AIC(p)}$が最小になるような${p}$を「最適次数」とします。
- ${RSS(p)}$は残差平方和(Residual Sum of Squares)
- ${T}$はサンプルサイズ
第1項の${\log(\frac{RSS(p)}{T})}$は当てはまりの悪さを示し、${p}$が増えるほど通常は当てはまりが改善して小さくなります。一方で第2項${\frac{2}{T}(p+1)}$がペナルティとなり、${p}$が増えるほどAICを大きくしようとする力が働きます。
この相反する効果がバランスする点でAICが最小となり、モデルとして適切な次数が決まるわけです。
特徴2:BIC(ベイズ情報量基準)との比較:モデル同定の一致性の有無
もう一つ有名な情報量基準としてBIC(ベイズ情報量基準)があります。
BICは
$${BIC = -2 \log L + k \ln(n)}$$
と定義され、サンプルサイズ${n}$が大きいほどペナルティ項${k \ln(n)}$が大きくなるため、より単純なモデルを選択しがちです。BICには「サンプルサイズが増加すると、最小BICを与えるモデルが真のモデルに収束する」というモデル同定の一致性があります。

この辺りのAICやBICの特徴をきちんと理解できているかという点は、統計検定準1級に出題されます
対してAICは、サンプルサイズが大きくなっても「必ず真のモデルを選択する」とは限りません。その代わり「予測の良さ」を重視した基準なので、少し複雑なモデルでも現実のデータに対してより高い汎化性能を持つケースに適応しやすいといえます。実際の分析においては、真のモデルなど存在しないかもしれない現実の複雑なデータに対して、どれだけ良い予測ができるかこそが重要になることも多いです。
その意味で、AICとBICは目的や状況に応じて使い分けられます。
AICの注意してほしい点
- モデル同定の一致性がない
サンプルサイズを増やしていっても、真のモデルを必ずしも選び出すわけではありません。 - サンプルサイズや事前分布の取り扱い
BIC(ベイズ情報量基準)など他の指標と比較すると、AICではサンプルサイズや事前分布をどのように考慮するかが明示されていません。大規模データでは、パラメータ数への罰則が十分でない場合もあります。
まとめ – 予測志向のモデル選択を支えるAIC
さて、ここまでAICをいろんな入り口で見てきましたが、特に「次に得られるデータに対しても誤差が小さい予測をしたい」という予測志向のタスクでは、AICは心強い指針になります。
ただし、サンプルサイズが増えるほどシンプルなモデルを選ぶ傾向が強まるBICといった他指標も含め、目的やデータの性質によって複数の情報量基準を使い分ける視点を持つとよりよいとおもいます。