ベイズ予測情報量基準（BPIC）の分からないところのメモ

「ベイズ統計モデリング／安道知寛著」にラスボス的に出てくるベイズ予測情報量基準（BPIC）なのですが、分からないところがあるので個人用にメモしておきます*1。

142pの7.3式：

$BPIC=-2 \int log \{f(X_{n}|\theta)\}\pi(\theta |X_{n})d\theta + 2p$

は単純な形でのBPICを示しています。

ここで第１項は事後対数尤度（devianceの平均）、pはパラメータの数です。つまり、ここではパラメータのペナルティが"2p"になっています*2。

ただ、この単純な形のBPICを適用するための仮定として：

（a）統計モデル $f(x|\theta)$ がある $\theta_{0} \in \Theta$ に対して真のモデルg(x)と一致する、もしくは真のモデルが近くにある．
（b）事前分布は $log \pi(\theta)=O_{p}(1)$ 、つまり観測データ数が十分に大きいとき、事前分布の影響は非常に小さくなる．

というのが前提となるらしく、(a)はまだしも、(b)の意味が良くわかりません。

単に「観測データ数が充分に大きいとき、事前分布の影響が非常に小さくなる」というだけなら、ベイズ推定における非常に一般的な状況を指しており、殆んどの場合に上記の形でのBPICが適用できそうです。この解釈の場合には、(b)が成り立たない場合というのがどういうケースを指すのかがむしろ思い浮かびません。事前分布が極度に狭い場合とかでしょうか？

ただ、階層性による縛りがある程度キツいケースでも、（effective number of parametersではなく）上記の"2p"がそのまま適用できるというのは、直感に反するような気もします。そう考えると、(b)の条件は"階層性などによる縛りがある程度以上キツくない"ということを意味すると解釈もできるような気がします。でも(b)の字句を素直に見る限り、そういう感じでもなさそうなんですよね。

BPICはかなり使えそうな概念なのですが、この辺りがもう少しクリアにならないかなぁ・・・と思います。

本の中では上記の仮定(a)(b)が成り立たない場合のBPICも示してあり、そちらは：

$BPIC=-2 \int log \{f(X_{n}|\theta\}\pi(\theta |X_{n})d\theta + 2n\hat{b}(\hat{G})$
$\hat{b}(\hat{G})= \frac{1}{n} \int log \{f(X_{n}|\theta)\pi(\theta)\}\pi(\theta |X_{n})d\theta -\frac{1}{n} log \{f(X_{n}|\hat{\theta_{n}}\}\pi(\hat{\theta_{n}})\} + \frac{1}{n} tr\{S_{n}^{-1}(\hat{\theta_{n}}) Q_{n}(\hat{\theta_{n}}) \} +\frac{p}{2n}$