Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

AICとDICに関する非常にアヤしい自作メモ(その1)

最初に書いておきますがここに書いてあることの数学的な正しさについては全く保証できませんのであしからず*1。このエントリーは自分用のトライアルメモです。

AICの直感的な説明を目指したメモ(たぶんアヤしい)

AICは基本的に

AIC = -2Ln L + 2K

と書けます。ここでLは最大尤度(モデルの現在のデータに対する当てはまりの良さ)であり、Kはパラメータの数を表しています。ひとまず「AIC最小となるのが最良のモデル」という解釈で使われます。

一般にパラメータの数Kが増えるほど当てはまりの良さは良くなります(-2Ln Lが小さくなる)が、Kの分だけAICは大きくなります。この「Kの分だけAICが大きくなる」というのがいわゆる「モデルの複雑さに対するペナルティ」です。これはどのように理解すると直感的に分かりやすいでしょうか。以下のように考えてみました。


我々にはデータがあるとします。そしてそのデータが持つ「情報量」は基本的に有限かつ固定であるとしましょう。まずはここで「パラメータ数が少なすぎるモデル」について考えてみましょう。

パラメータの数が少ないモデルでは、一つ一つのパラメータの推定に使える情報量は相対的に大きいということは言えるかもしれません*2。しかしながら、パラメータ数の少なすぎるモデルでは現在のデータに対する当てはまりは良くありません。このモデル自体の当てはまりの悪さにより、予測もあまりうまくいきません(以下図aのイメージ)。

一方、「パラメータ数が多すぎるモデル」を考えてみましょう。パラメータの数が少ないモデルでは現在のデータに対する当てはまりはとても良いです。しかしながら、パラメータの数が多すぎるモデルでは、一つ一つのパラメータの推定に使える情報量は相対的に少なくなってしまいます。そのため「将来のデータの予測」の観点からは、一つ一つのパラメータ推定に使われた情報量が少ない(=推定の精度*3が悪い)ため予測の像がぼやけてしまい*4、「将来データの予測」の能力はやはりまた良くありません(以下図bのイメージ)。

上記のような2つの状況の中間の「絶妙のパラメータの数」となるのが「AIC最小」となるモデルなのです、という直感的な説明ができるのではないか、と思っています。


*次回の「DICに関するさらにアヤしいメモ」に続きます

*1:数学的なツッコミ大歓迎します!

*2:こういう言い方をして正しいのか正直なところよくわかりません

*3:という表現をしていいのかかなり疑問。この辺りをFisher情報量と絡めてきちんと理解できれば理想的なんじゃないかと妄想するのですが、私の今の能力では無理っす。というか「パラメータあたりの情報量」というよりも「次元が増える」ことの方が重要なのかな?というかその両者はコインのオモテウラの関係だったりする?

*4:真のモデルと近似モデルとの距離の関数(のテイラー展開)において2次モーメントの項が大きくなる、というのを「ぼやける」と表現してみましたが、正直適切なのかどうかよく分かりません