重回帰の変数選択についての追記：交絡調整との兼ね合い

いまフェスで鹿児島に来ています*1。

先日の重回帰の記事の追記として、「相関のある変数を取り除くこと」を「交絡調整」という視点からさくっと語りなおしてみたいと思います。
（これから書くことはたぶん間違ってはないハズとは思うんですが、もし間違っていたら適宜ご指摘ください＞識者の方々）

変数の追加による交絡の調整

例として、以下のような因果構造をもつ場合について考えていきます。

ここでYは目的変数、A、B、CはYに対して因果的影響をもつ変数となります。また、とりあえずCは観測されていない（統計解析の際に説明変数として入れない）とします。

ここでわれわれが興味があるのは「要因Aの結果Yに対する因果効果の大きさ」であるとしましょう。

ここでAを説明変数として単回帰すると、どうなるでしょうか。

この場合、要因AとBの間に擬似相関があるので：

Aの単回帰係数 = AのYへの影響＋AB間の擬似相関による影響

となり、Aの単回帰係数を「要因Aの結果Yに対する因果効果の大きさ」として解釈するのは、AB間の擬似相関の影響が混じってしまっている*2ためあまりよくありません。

このような擬似相関の影響を調整（重回帰における交絡を調整）する場合には、変数Bを加えた説明変数2つのモデルを用いてAの偏回帰係数を評価すれば良いことになります。

この場合には：

Aの偏回帰係数 = AのYへの影響

となります。

何も考えずに相関のある変数を取り除いてはいけない（revisited）

ここで「重回帰において相関の高い変数を取り除く」という問題を振り返ってみると、上記で見てきた「変数追加による交絡の調整」とある意味真逆のことをやっているとも考えられるわけです。

相関の高い変数というのは、擬似相関の関係にあることも多く（←ここは因果構造に依存）、それを何も考えずに除いてしまうと「交絡をわざわざ導入している」ことにもなりかねないのです（たぶん）。

ちなみに、上記のパス図の場合に変数Aの効果を見るために「変数Bを加えて交絡を調整する」というのはバックドア基準からも正当化されるものです。（さらに言えば、バックドア基準からは変数Bか変数Cの"いずれか"を追加すれば交絡が調整できるということが分かります）

一方、「Yの予測」ということが目的であればAとBが高相関の場合には、AICなどの情報量基準の観点からは変数A（あるいは変数B）のみを採択することが正当化されるかもしれません。このあたりは予測・評価（AIC）と因果・介入（バックドア基準）のどちらに重きを置くかの問題になるのでしょう（おそらく...）。

（バックドア基準については後日また書きます）

おまけ：因果推論の関連文献
回帰分析系では決定版かも：

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

作者: 宮川雅巳
出版社/メーカー: 朝倉書店
発売日: 2004/04
メディア: 単行本
購入: 6人クリック: 67回
この商品を含むブログ (22件) を見る

でもまずとっつきやすいのはこちら：

多変量解析の展開―隠れた構造と因果を推理する (統計科学のフロンティア 5)

作者: 甘利俊一,佐藤俊哉,竹内啓,狩野裕,松山裕,石黒真木夫
出版社/メーカー: 岩波書店
発売日: 2002/12/10
メディア: 単行本
購入: 1人クリック: 16回
この商品を含むブログ (14件) を見る

パス図なんて書けないよ〜という場合（ほとんどそうかも？）はこちら：

調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)

作者: 星野崇宏
出版社/メーカー: 岩波書店
発売日: 2009/07/29
メディア: 単行本
購入: 29人クリック: 285回
この商品を含むブログ (22件) を見る

*1:たまたま入った居酒屋で席上に置いてあった醤油に"甘口""辛口"の二種類があったので、20歳ちょいくらいの店員さん（女性）に「この甘口／辛口の醤油ってどう使い分けるんですか？」と尋ねたら、「甘い醤油は田舎風のもので、甘くない醤油は都会風のものです」とのこと。「甘くない醤油は都会風」という甘美なフレーズにずっきゅんと鹿児島萌え。（うちの実家も田舎だが醤油は甘くないっすよおねいさん...）

*2:別の言い方をすると、AB間に相関があるので、「Aの単回帰係数 ≠ Aの偏回帰係数」となる、ということ