読者です 読者をやめる 読者になる 読者になる

Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

AICとDICに関する非常にアヤしい自作メモ(その4)

最初に書いておきますが今回のメモについても非常に間違っている可能性がありますので注意してください。

特に、今回書く内容については既にメモ(その3)へのコメントとして伊庭先生に非常に貴重な解説をいただいておりますので、是非そちらの方をメインで読んで頂いた方が絶対にいろいろと本当に参考になるかと思われます。

こちらのメモも一応書いていきますが、今回は「どういうところが分からないのかを自分なりに整理する」ことが主眼になります。

AICとDICの解釈の比較についての非常にアヤしいメモ

The BUGS projectのDICのFAQページを読むと

DIC is intended as a generalisation of Akaike's Information Criterion (AIC).

と書いてあります。確かに「AICにおける"パラメータの数"を"有効なパラメータ数"という概念に置き換えることによる一般化」が意図されていると言えるでしょう。

ただ、"generalisation"というよりも"mimic"と言ったほうが実態を表しているのではないかな、という気もしないでもありません。AICとDICでは「パラメータ数によるペナルティ」の捉え方が全く異っているからです。


これまでのメモに頂いたコメントを総合すると、AICにおける"パラメータ数によるペナルティ"は、(1)パラメータの揺らぎ(2)"真のモデル"の代わりに"手持ちのデータ"を使う、という場所から出てきているようです*1。また、その部分を概念的に/数学的に/直感的に理解しようとするのは非常に難しそうです。

一方、DICにおける"パラメータ数によるペナルティ"は、"事後分布の周りの分散の存在によるdevianceの増加分"として解釈することができそうです*2。このアプローチが適切なのかの判断についてはともかくとして*3、概念自体は非常に分かりやすいものだと思われます。


以上の二つの"パラメータ数によるペナルティ"の概念の源は、非常に異なっているように見えます(下図へ整理*4)。メモ1&3へ頂いた伊庭先生のコメントでの用語を用いさせていただけば、AICではパラメータのペナルティの計算において「縦軸」が評価されているらしい*5のに対し、DICでは評価されているのは(対数尤度を評価していると言う点では依然「縦軸」ではあるものの)明らかに事後分布の広がりという「横軸」に直接的に関連した「縦軸」であるように見えます*6



素朴に考えても、同じ対数尤度という「縦軸」方向の評価とはいっても、「横軸」と直接な関連性を持っているように見えるDICによる評価と、「パラメータの揺らぎ」と「真のモデルの代替」の辺りに源を持つらしいAICの評価が一致する方が不思議なような気がします*7

AICとDICがequivalentになる場合

少なくともどんな場合にはAICとDICによるパラメータ数が一致すると考えられるでしょうか?DICの枠組みにおいて「実際のパラメータ数」に対して「有効なパラメータ数」が減少する理由は、事前分布により分散が抑えられることにあります。

そのため「階層構造も事前情報もない場合」にはAICとDICにおけるパラメータ数(つまりpとpD)は等しくなりそう(というかならなければマズそう)です。実際、The BUGS projectのDICのFAQページには以下のように書いてあります。

For non-hierarchical models with little prior information, pD should be approximately the true number of parameters. AIC requires counting parameters and hence any intermediate level ('random-effects') parameters need to be integrated out. A recent 'conditional AIC' by Vaida and Blanchard (2005) focuses on the random effects in normal hierarchical models and uses tr(H) as the effective number of parameters, and so again matches DIC.

どうやら「正規分布を仮定したrandom effectモデル」あたりまでは少なくとも頻度主義的なアプローチと整合性があるようです*8

何がよく分からないか

結局、全く異なったアプローチで出てくる「パラメータ数によるペナルティ」が何故相互に対応しうるのかが私の能力では良くわかりません*9


ただ私は一介の統計ユーザーに過ぎないので、原理的なことはさておき実務に耐えうれば何でもよいというのが正直なところであります*10

その辺りのメモ(疑問の整理)を次回以降に書いてみたいと思います。


*次回は「意思決定理論からのDICのjustification」(Spigelhalter et al. 2002のp603の部分)に絡めたメモを書こうと思います。

*1:詳しくは、メモその1&3への伊庭先生のコメント参照

*2:メモその3参照

*3:少なくとも私にはその点について議論できる能力はありません

*4:あれ、そういえば「2倍」の問題はどこに整理すればよいのでしょう?私にはちょっと分かりそうにないので、とりあえずそこは保留させてください。

*5:もし万が一伊庭先生のコメントをお読みになっていない方が居られたら是が非でも読んでみてください。エントリ本文よりはるかに素晴らしい&貴重なものです!

*6:この部分は伊庭先生の当エントリへのコメントに基づき修正しました

*7:この部分と図も伊庭先生のコメントに基づき修正しました

*8:Spigelhalter et al. (2002)のp591にp=pDの導出あり

*9:Spigelhalter et al. 2002を良く読めば書いてあるのかな?

*10:ただ「実務に耐えうるかどうか(の範囲の限定)」が原理的な部分にも関わる問題だったりするのが厄介なところであります