読者です 読者をやめる 読者になる 読者になる

Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

統計的因果推論(傾向スコア)の勉強会資料をアプしてみた

統計

みなさまお久しぶりです。私はけっきょくminor revisionに三ヶ月もかかってしまい他の仕事にしわ寄せキまくってます。

今回は某勉強会で傾向スコアを扱ったのでその勉強会資料をアップしてみます(環境によってはサムネ画像がでないかも)。

*上のファイルはプレゼン用(差分)なので印刷用PDF資料としてはこちらのファイル( PSAseminar_file20120426.pdf 直 )をどうぞ。

*追記:上記のプレゼン内で使っているRのscriptのfileもどうぞ( PropScore_Rscript.R 直

傾向スコアってなにそれおいしいの?

傾向スコアとは何かというと、実験ができない場合(調査観察データなど)における交絡の調整方法です。(一応言っておきますが交絡をちゃんと調整しないと因果効果が推定されているとは言えないのですよ!)

ざっくりいうと、潜在的な交絡要因となる様々な共変量を傾向スコアという一つの合成変数に縮約(一次元化)して、その傾向スコアを基準としてマッチングや層別化を行う、というイメージですかね。

近年医療分野なんかを中心にとても使われてきているようです。(例えばこちらの総説のFig1をみると飛躍的に使用がひろがってるぽい)

より詳しくは上記勉強会資料を見てみてくださいね。

上掲プレゼン資料の元ネタ紹介

上掲のプレゼン資料は基本的に以下の星野・岡田(2006)の総説の流れをベースに説明しています。

「傾向スコアを用いた共変量調整による因果効果の推定と臨床医学・疫学・薬学・公衆衛生分野での応用について」(http://ci.nii.ac.jp/naid/40015391518

あと「因果効果の定義と無作為割付」のあたり(Neyman-Rubinの反事実モデル)の説明は宮川(2004)を踏襲しています:

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

全体的に細かいところは星野(2009)を参考にしています:


こちらの里洋平さんの勉強会スライドも大変参考にさせていただきました(多謝):
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -


その他web上の記事

Web上にもいくつか記事はありますのでちょっと追加。

(1) isseing333さんのこちらの記事。Rによる実装例もあります:
観察データでの効果推定(傾向スコア、IPW、DR) - iAnalysis 〜おとうさんの解析日記〜

(2) what_a_dudeさん*1の記事はこちら:
はてなダイアリー

どちらも実装する上でとてもとても参考になります。

雑感(個人的なメモ)
    • 傾向スコア法はテーマとデータがハマればかなり強力かも。
    • 具体的には着目したい説明変数があらかじめ決まっていて、しかもそれがカテゴリ(2値)変数だったらいけるかも。
    • なにより実装がRで数行でできる話なので手軽です。
    • まあでも傾向スコアを算出するところのモデルがどうなの?という問題は残るけどなあ(まあSEMとか重回帰の枠組みより大幅に状況は単純化はされると思うけど)
    • 傾向スコアを算出するところのモデルの吟味(共変量の選択など)についてはそれなりの職人技と見識が必要とされそう。あとそれなりのデータ量も必要らしい。
    • 傾向スコアとかその周りの概念を学ぶと、我々(生態学者)の"とりあえず重回帰"というのは単なる慣習であって理論的裏付けに欠ける危険な行為*2であることがよく分かる(と思う)。
    • RのMatching packageのsample dataの"lalonde"って実は無作為割付してるデータっぽい。そんなものを傾向スコアの解析例のデータとして使う意味が全くわからん(傾向スコア使う意味ないだろ)。。。what_a_dudeさんも言ってるけど傾向スコアのモデルの適合具合もあんまり芳しくないし。
    • 傾向スコアは生態学界隈では世界的にもまだ全然広まっていない概念なので、チャンスかもしれない。
    • 普通の重回帰分析から示唆されていたことが傾向スコア解析でひっくり返るケースもけっこうあると思うし、そうすればそれだけで論文書けるだろうし、それでいて解析自体はRで数行なんだから。
    • そういや傾向スコアネタで科研費書いたのですが、あっさり落ちました。
    • 傾向スコアを使った解析を自分でもやりたいのはやまやまなのです。研究アイデアはあるのですが、時間がなくて実行できそうにありません。興味をお持ちの方、共同研究しませんか。(うまくいけば、うまくいく研究です。それかうまくいかないかです。)


傾向スコアについてはそのうち改めて本ブログでもちゃんと書きたいと思います。そのうち!



.

*1:おげんきですかー

*2:「危険な」とまでは言えないのかもなあと思い直した。重回帰(の偏微分係数)をそのまま因果的に解釈してよいかどうかはバックドア基準の観点からある程度判断できるのだけれど、まあなんだかんだ言って何も考えなくてもバックドア基準を概ね満たしている場合も少なくないのかもという意味では概ねロバストな行為なのかもしれないのとかちょっと思った