あらかじめ断っておきますが、これらの一連のメモは正しいか間違っているかで言ったらおそらく間違っています。ただしいちどあえて間違った考え方の中に分け入ってみることで正しい考えに至る道を見つけることもあるので、メモを残しておきます。そういう類のメモです。
AICにおける真のモデルと近似モデルの距離のイメージのアヤしいメモ
AICの導出の説明の際に補正項Kが出てくる場所を探ると、どうやら「真のモデルと近似モデルの距離関数のテイラー展開における二次モーメント→カイ二乗分布→K」という流れで出てくるようです。そのため、パラメータ数Kが増加するにしたがって「真のモデルと近似モデルの平均値の距離は近づく」ものの「分散(二次モーメント)の拡がりによりかえってその距離が離れていく」というイメージで理解できるのではないかと考えています(下図のイメージ)*1 *2。
なぜKが増えると分散が増すのでしょうか。Kが大きすぎるときには、現象としてはoverfittingが起きていると考えられます。この状況を直感的に理解するにはどうしたらよいのでしょうか。
(ここから加速度的にアヤしい話になっていきます)
パラメータが増えることに不可避的に付随するものは何でしょうか?パラメータが増えることにより「パラメータ推定に伴う不確実性」という新たなノイズが予測システムの中に不可避的に生ずることが、その一つとして挙げられるかもしれません*3。
もし上図の「Kが増えるに従って増大する分散」が情報理論的な意味での「パラメータ推定に伴う不確実性というノイズの大きさ」を反映すると考えると、その考えをスライドさせることによりDICの考え方についてアナロジカルに理解することができるのではないか、と考えています。
追記:頂いたコメントを踏まえて図の改変(→ver2)をしました
追記;実は上記のような概念は広く受けいれられており、機械学習ではbias-variance dilemmaと呼ばれているそうです→自作メモ(その1)への伊庭先生のコメントを是非ご参照ください
*次回につづく