Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

重回帰の変数選択についての追記:交絡調整との兼ね合い

いまフェスで鹿児島に来ています*1

先日の重回帰の記事の追記として、「相関のある変数を取り除くこと」を「交絡調整」という視点からさくっと語りなおしてみたいと思います。
(これから書くことはたぶん間違ってはないハズとは思うんですが、もし間違っていたら適宜ご指摘ください>識者の方々)

変数の追加による交絡の調整

例として、以下のような因果構造をもつ場合について考えていきます。

ここでYは目的変数、A、B、CはYに対して因果的影響をもつ変数となります。また、とりあえずCは観測されていない(統計解析の際に説明変数として入れない)とします。

ここでわれわれが興味があるのは「要因Aの結果Yに対する因果効果の大きさ」であるとしましょう。

ここでAを説明変数として単回帰すると、どうなるでしょうか。

この場合、要因AとBの間に擬似相関があるので:

Aの単回帰係数 = AのYへの影響+AB間の擬似相関による影響

となり、Aの単回帰係数を「要因Aの結果Yに対する因果効果の大きさ」として解釈するのは、AB間の擬似相関の影響が混じってしまっている*2ためあまりよくありません。

このような擬似相関の影響を調整(重回帰における交絡を調整)する場合には、変数Bを加えた説明変数2つのモデルを用いてAの偏回帰係数を評価すれば良いことになります。

この場合には:

Aの偏回帰係数 = AのYへの影響

となります。

何も考えずに相関のある変数を取り除いてはいけない(revisited)

ここで「重回帰において相関の高い変数を取り除く」という問題を振り返ってみると、上記で見てきた「変数追加による交絡の調整」とある意味真逆のことをやっているとも考えられるわけです。

相関の高い変数というのは、擬似相関の関係にあることも多く(←ここは因果構造に依存)、それを何も考えずに除いてしまうと「交絡をわざわざ導入している」ことにもなりかねないのです(たぶん)。

ちなみに、上記のパス図の場合に変数Aの効果を見るために「変数Bを加えて交絡を調整する」というのはバックドア基準からも正当化されるものです。(さらに言えば、バックドア基準からは変数Bか変数Cの"いずれか"を追加すれば交絡が調整できるということが分かります)


一方、「Yの予測」ということが目的であればAとBが高相関の場合には、AICなどの情報量基準の観点からは変数A(あるいは変数B)のみを採択することが正当化されるかもしれません。このあたりは予測・評価(AIC)と因果・介入(バックドア基準)のどちらに重きを置くかの問題になるのでしょう(おそらく...)。


バックドア基準については後日また書きます)


おまけ:因果推論の関連文献
回帰分析系では決定版かも:

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

でもまずとっつきやすいのはこちら:

多変量解析の展開―隠れた構造と因果を推理する (統計科学のフロンティア 5)

多変量解析の展開―隠れた構造と因果を推理する (統計科学のフロンティア 5)

パス図なんて書けないよ〜という場合(ほとんどそうかも?)はこちら:

*1:たまたま入った居酒屋で席上に置いてあった醤油に"甘口""辛口"の二種類があったので、20歳ちょいくらいの店員さん(女性)に「この甘口/辛口の醤油ってどう使い分けるんですか?」と尋ねたら、「甘い醤油は田舎風のもので、甘くない醤油は都会風のものです」とのこと。「甘くない醤油は都会風」という甘美なフレーズにずっきゅんと鹿児島萌え。(うちの実家も田舎だが醤油は甘くないっすよおねいさん...)

*2:別の言い方をすると、AB間に相関があるので、「Aの単回帰係数 ≠ Aの偏回帰係数」となる、ということ