最初に書いておきますがここに書いてあることの数学的な正しさについては全く保証できませんのであしからず*1。このエントリーは自分用のトライアルメモです。
AICの直感的な説明を目指したメモ(たぶんアヤしい)
AICは基本的に
AIC = -2Ln L + 2K
と書けます。ここでLは最大尤度(モデルの現在のデータに対する当てはまりの良さ)であり、Kはパラメータの数を表しています。ひとまず「AIC最小となるのが最良のモデル」という解釈で使われます。
一般にパラメータの数Kが増えるほど当てはまりの良さは良くなります(-2Ln Lが小さくなる)が、Kの分だけAICは大きくなります。この「Kの分だけAICが大きくなる」というのがいわゆる「モデルの複雑さに対するペナルティ」です。これはどのように理解すると直感的に分かりやすいでしょうか。以下のように考えてみました。
我々にはデータがあるとします。そしてそのデータが持つ「情報量」は基本的に有限かつ固定であるとしましょう。まずはここで「パラメータ数が少なすぎるモデル」について考えてみましょう。
パラメータの数が少ないモデルでは、一つ一つのパラメータの推定に使える情報量は相対的に大きいということは言えるかもしれません*2。しかしながら、パラメータ数の少なすぎるモデルでは現在のデータに対する当てはまりは良くありません。このモデル自体の当てはまりの悪さにより、予測もあまりうまくいきません(以下図aのイメージ)。
一方、「パラメータ数が多すぎるモデル」を考えてみましょう。パラメータの数が少ないモデルでは現在のデータに対する当てはまりはとても良いです。しかしながら、パラメータの数が多すぎるモデルでは、一つ一つのパラメータの推定に使える情報量は相対的に少なくなってしまいます。そのため「将来のデータの予測」の観点からは、一つ一つのパラメータ推定に使われた情報量が少ない(=推定の精度*3が悪い)ため予測の像がぼやけてしまい*4、「将来データの予測」の能力はやはりまた良くありません(以下図bのイメージ)。
上記のような2つの状況の中間の「絶妙のパラメータの数」となるのが「AIC最小」となるモデルなのです、という直感的な説明ができるのではないか、と思っています。
*次回の「DICに関するさらにアヤしいメモ」に続きます