AICとDICに関する非常にアヤしい自作メモ（その３）

あらかじめ書いておきますが、ここに書いてあることは間違ってる可能性が高いので気をつけてください。でも以前のメモも素晴らしく貴重なコメントの数々をいただきました（大感謝）ので、きっとコメント込みで読んでいただければ何らかのお役に立てるような気がしてきました。

DICの直感的な理解を目指したメモ（さらにアヤしい）

さて、前回のメモではAICにおいては「パラメータ推定に関する何らかの不確実性」が「パラメータの数」として表現されているのではないか、と妄想しました*1。

おそらく、このような考え方はそのままではベイズの世界には持ち込めません。なぜならベイズでは「パラメータ自体が事前分布という"情報"を連れている*2」という事情があるからです。

このような場合には、「パラメータ推定に関する不確実性」というのはパラメータが持つ事前分布に依存することになりそうです。極端なことを言えば、あるパラメータの事前分布の分散がゼロであれば、そのパラメータの推定に関する不確実性は実質上存在しないためゼロとなるでしょう。逆に、事前分布が無情報分布であるならば「パラメータ推定に関する不確実性」は（AICでの場合と同程度に）存在することになるような気がします。その間の「事前分布の分散がゼロから∞の間のどこか」という状況であれば、パラメータ推定に関する不確実性も中間的な値をとることになるのではないかと考えられます。

こんな状況では、「パラメータ推定に関する何らかの不確実性」の指標としての「（有効な）パラメータの数」をアプリオリかつ一義的に決めるのは難しそうです。どうしたらよいものでしょうか。

DICの説明

DICをAICと相互比較しやすい形で書くと

$DIC = \overline{D}+p_{D}$

となります*3 *4。ここで第一項は事後分布のdevianceの平均であり「モデルの当てはまりの良さ」を表しています*5。一方、第二項は「有効なパラメータ数」を意味しており「モデルの複雑さによるペナルティ」を表しています。とてもAICに似ていますよね。

ではここで肝心の「有効なパラメータ数」はどのように定義されているのでしょうか。見てみましょう。

$p_{D}=\overline{D}-D(\overline{\theta})$

これは、有効なパラメータ数は「（事後分布の全体を用いて計算された）devianceの平均マイナス事後分布の平均値 $\overline{\theta}$ を用いて計算されたdeviance」である、ということを意味しています。つまり「事後分布の平均値周りに分散が存在することによる当てはまりの低下分＝有効なパラメータ数」という解釈になっているようです（下図のイメージ）。

そもそも「（事後分布の全体を用いて計算された）devianceの平均」と「事後分布の平均値を用いて計算されたdeviance」と言われてもすぐにはピンとこないですよね。MCMCを絡めてそのイメージを書いてみると下図のようになると思います。

つまり「（事後分布の全体を用いて計算された）devianceの平均（ $\overline{D}$ ）」というのはMCMCのiterationごとにいちいちdevianceを計算していったものを最後に平均したものに相当します。一方「事後分布の平均値を用いて計算されたdeviance（ $D(\overline{\theta})$ ）」は最終的に得られた事後分布の平均値で計算したdevianceになります。

当然MCMCのiterationの中では尤度が比較的低いパラメータセットも含まれるので、ふつうは $\overline{D} > D(\overline{\theta})$ となります*6。

余談ですが、以上の「有効なパラメータ数」に関する議論を少し違う観点から眺めると、ベイズというものは「事前分布やパラメータ間の関連」という情報をデータの内外から持ち込むことにより「パラメータが多くてもそんなにペナルティを払わなくてもよい」「パラメータが多くてもそんなにoverfittingにならない」方法を提供してくれようとしているのだ*7、という捉え方もできます。この辺りが多次元モデリングにおけるベイズの実用的利点の本質なのだと思います。

＊今回はたぶんそんなにはアヤしくないのかな？次回のメモではAICとDICの概念比較のかなりアヤしげな議論をしたいと思います。

＃追記：最初に書いたバージョンでは一番肝心なDICの式の符号が違っていました！現在は直っております。

*1:不確実性の由来の内訳についは「自作メモ（その１）」への伊庭さんのコメントを是非ご参照ください！

*2:あるいはパラメータ間の関係における何らかの制約という形の"情報"を持っている

*3:わーいはてなってtex記法が通じるのだということにいま気が付きました。すばらしかー。

*4:申し訳ないですがここからは相互参照の便宜のため[http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/DIC-slides.pdf:title=SpigelhalterのDICまとめslide]の表記法にしたがって書いていきます

*5:Devianceが小さいほどfitがよい

*6:こうならない場合は事後分布の平均値を使うとかえって尤度が減少するような何かヘンなことが起きていると考えられます。事後分布が二山型になっているとか。

*7:イイ奴ですよね