Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

ベイズ予測情報量基準(BPIC)の分からないところのメモ

ベイズ統計モデリング/安道知寛著」にラスボス的に出てくるベイズ予測情報量基準(BPIC)なのですが、分からないところがあるので個人用にメモしておきます*1

142pの7.3式:

BPIC=-2 \int log \{f(X_{n}|\theta)\}\pi(\theta |X_{n})d\theta + 2p

は単純な形でのBPICを示しています。

ここで第1項は事後対数尤度(devianceの平均)、pはパラメータの数です。つまり、ここではパラメータのペナルティが"2p"になっています*2

ただ、この単純な形のBPICを適用するための仮定として:

(a)統計モデルf(x|\theta)がある\theta_{0} \in \Thetaに対して真のモデルg(x)と一致する、もしくは真のモデルが近くにある.
(b)事前分布はlog \pi(\theta)=O_{p}(1)、つまり観測データ数が十分に大きいとき、事前分布の影響は非常に小さくなる.

というのが前提となるらしく、(a)はまだしも、(b)の意味が良くわかりません。

単に「観測データ数が充分に大きいとき、事前分布の影響が非常に小さくなる」というだけなら、ベイズ推定における非常に一般的な状況を指しており、殆んどの場合に上記の形でのBPICが適用できそうです。この解釈の場合には、(b)が成り立たない場合というのがどういうケースを指すのかがむしろ思い浮かびません。事前分布が極度に狭い場合とかでしょうか?

ただ、階層性による縛りがある程度キツいケースでも、(effective number of parametersではなく)上記の"2p"がそのまま適用できるというのは、直感に反するような気もします。そう考えると、(b)の条件は"階層性などによる縛りがある程度以上キツくない"ということを意味すると解釈もできるような気がします。でも(b)の字句を素直に見る限り、そういう感じでもなさそうなんですよね。

BPICはかなり使えそうな概念なのですが、この辺りがもう少しクリアにならないかなぁ・・・と思います。


本の中では上記の仮定(a)(b)が成り立たない場合のBPICも示してあり、そちらは:

BPIC=-2 \int log \{f(X_{n}|\theta\}\pi(\theta |X_{n})d\theta + 2n\hat{b}(\hat{G})
\hat{b}(\hat{G})= \frac{1}{n} \int log \{f(X_{n}|\theta)\pi(\theta)\}\pi(\theta |X_{n})d\theta -\frac{1}{n} log \{f(X_{n}|\hat{\theta_{n}}\}\pi(\hat{\theta_{n}})\} + \frac{1}{n} tr\{S_{n}^{-1}(\hat{\theta_{n}}) Q_{n}(\hat{\theta_{n}}) \} +\frac{p}{2n}

となるようです(p143, 式7.4)。詳しくは本のほうをご覧くださいませ。全体的にはとても良い本だと思います*3


ベイズ統計モデリング (統計ライブラリー)

ベイズ統計モデリング (統計ライブラリー)

*1:個人用のメモなので説明が足りないところが数多くあります。すみません。

*2:ちなみにDICを全く同じ形で書くとここは"p"になります!

*3:自分には数学的に難しすぎるけど