読者です 読者をやめる 読者になる 読者になる

Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

データマイニングと交差妥当化に関する引用メモ

統計

データマイニング入門/ 豊田秀樹著」を読んでいて、「そういうかんじなのかあ」と感じたところがあったので引用メモ(p16)。

データマイニングにおけるデータ解析の最大の特徴は、交差妥当化を標準で実施する文化を定着させたことである。ただし交差妥当化は、データマイニングの研究過程で提案されたオリジナルの概念ではない。


交差妥当化という考え方は、心理測定学における構成概念の妥当性研究の分野で生まれた。それが伝統的な統計学に引き継がれ、その実効性の高さは統計学の理論と実践の枠組みの中で既に知られていた。


なぜ、これほどの威力のある交差妥当化が、これまでの統計解析の中で主流でなかったのだろうか。理由はとても単純である。従来は標本が少なかったからだ。


データの分析は、まず母数の推定が中心である。平均値や母数の計算も母数の推定である。母数の推定は標本が多ければ安定するし、標本が少なければ不安定になるという大原則がある。


データを2つ、あるいは3つに分割して、そのうちの1つだけで母数を推定すると標本が少なくなってモデルが不安定になってしまう。作られたモデルがそもそも不安定なのであれば、交差妥当化によってその中から最良のモデルを選択しても意味がない。統計モデルの評価や選択は、統計モデルの構成や推定がうまくいっている状態で試みて初めて意味を持ってくる。


この本は表紙がわたせせいぞうなのでちょっとナメていたのですが、第一章とかけっこう読み応えがありました。本は見た目で判断してはいけないですね。

データマイニング入門

データマイニング入門

人は見た目が9割 (新潮新書)

人は見た目が9割 (新潮新書)