Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

AICとDICに関する非常にアヤしい自作メモ(その2)

あらかじめ断っておきますが、これらの一連のメモは正しいか間違っているかで言ったらおそらく間違っています。ただしいちどあえて間違った考え方の中に分け入ってみることで正しい考えに至る道を見つけることもあるので、メモを残しておきます。そういう類のメモです

AICにおける真のモデルと近似モデルの距離のイメージのアヤしいメモ

AICの導出の説明の際に補正項Kが出てくる場所を探ると、どうやら「真のモデルと近似モデルの距離関数のテイラー展開における二次モーメント→カイ二乗分布→K」という流れで出てくるようです。そのため、パラメータ数Kが増加するにしたがって「真のモデルと近似モデルの平均値の距離は近づく」ものの「分散(二次モーメント)の拡がりによりかえってその距離が離れていく」というイメージで理解できるのではないかと考えています(下図のイメージ)*1 *2



なぜKが増えると分散が増すのでしょうか。Kが大きすぎるときには、現象としてはoverfittingが起きていると考えられます。この状況を直感的に理解するにはどうしたらよいのでしょうか。

(ここから加速度的にアヤしい話になっていきます)

パラメータが増えることに不可避的に付随するものは何でしょうか?パラメータが増えることにより「パラメータ推定に伴う不確実性」という新たなノイズが予測システムの中に不可避的に生ずることが、その一つとして挙げられるかもしれません*3


もし上図の「Kが増えるに従って増大する分散」が情報理論的な意味での「パラメータ推定に伴う不確実性というノイズの大きさ」を反映すると考えると、その考えをスライドさせることによりDICの考え方についてアナロジカルに理解することができるのではないか、と考えています。


追記:頂いたコメントを踏まえて図の改変(→ver2)をしました
追記;実は上記のような概念は広く受けいれられており、機械学習ではbias-variance dilemmaと呼ばれているそうです→自作メモ(その1)への伊庭先生のコメントを是非ご参照ください


*次回につづく

*1:そしてその分散に起因する距離がなんと「パラメータ数」で表すことができるというのがAICの要点なのではないかと

*2:追記:google先生に教えてもらった以下の記事のsekinoさんのコメントを見るとこのイメージも的外れではないのかも?微妙に違う気もするが。http://d.hatena.ne.jp/higotakayuki2/20070317/p1

*3:AICの導出過程でKが出てくる局面を見る限り、ここで言う「不確実性」はFisher情報量によって表現されていると言える?