先日の重回帰の記事の追記として、「相関のある変数を取り除くこと」を「交絡調整」という視点からさくっと語りなおしてみたいと思います。
(これから書くことはたぶん間違ってはないハズとは思うんですが、もし間違っていたら適宜ご指摘ください>識者の方々)
変数の追加による交絡の調整
例として、以下のような因果構造をもつ場合について考えていきます。
ここでYは目的変数、A、B、CはYに対して因果的影響をもつ変数となります。また、とりあえずCは観測されていない(統計解析の際に説明変数として入れない)とします。
ここでわれわれが興味があるのは「要因Aの結果Yに対する因果効果の大きさ」であるとしましょう。
ここでAを説明変数として単回帰すると、どうなるでしょうか。
この場合、要因AとBの間に擬似相関があるので:
Aの単回帰係数 = AのYへの影響+AB間の擬似相関による影響
となり、Aの単回帰係数を「要因Aの結果Yに対する因果効果の大きさ」として解釈するのは、AB間の擬似相関の影響が混じってしまっている*2ためあまりよくありません。
このような擬似相関の影響を調整(重回帰における交絡を調整)する場合には、変数Bを加えた説明変数2つのモデルを用いてAの偏回帰係数を評価すれば良いことになります。
この場合には:
Aの偏回帰係数 = AのYへの影響
となります。
何も考えずに相関のある変数を取り除いてはいけない(revisited)
ここで「重回帰において相関の高い変数を取り除く」という問題を振り返ってみると、上記で見てきた「変数追加による交絡の調整」とある意味真逆のことをやっているとも考えられるわけです。
相関の高い変数というのは、擬似相関の関係にあることも多く(←ここは因果構造に依存)、それを何も考えずに除いてしまうと「交絡をわざわざ導入している」ことにもなりかねないのです(たぶん)。
ちなみに、上記のパス図の場合に変数Aの効果を見るために「変数Bを加えて交絡を調整する」というのはバックドア基準からも正当化されるものです。(さらに言えば、バックドア基準からは変数Bか変数Cの"いずれか"を追加すれば交絡が調整できるということが分かります)
一方、「Yの予測」ということが目的であればAとBが高相関の場合には、AICなどの情報量基準の観点からは変数A(あるいは変数B)のみを採択することが正当化されるかもしれません。このあたりは予測・評価(AIC)と因果・介入(バックドア基準)のどちらに重きを置くかの問題になるのでしょう(おそらく...)。
(バックドア基準については後日また書きます)
おまけ:因果推論の関連文献
回帰分析系では決定版かも:
統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)
- 作者: 宮川雅巳
- 出版社/メーカー: 朝倉書店
- 発売日: 2004/04
- メディア: 単行本
- 購入: 6人 クリック: 67回
- この商品を含むブログ (22件) を見る
でもまずとっつきやすいのはこちら:
多変量解析の展開―隠れた構造と因果を推理する (統計科学のフロンティア 5)
- 作者: 甘利俊一,佐藤俊哉,竹内啓,狩野裕,松山裕,石黒真木夫
- 出版社/メーカー: 岩波書店
- 発売日: 2002/12/10
- メディア: 単行本
- 購入: 1人 クリック: 16回
- この商品を含むブログ (14件) を見る
パス図なんて書けないよ〜という場合(ほとんどそうかも?)はこちら:
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (22件) を見る