読者です 読者をやめる 読者になる 読者になる

Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

重回帰分析における多重共線性への対処ストラテジーのメモ

統計

良い機会なので重回帰分析についてのメモをちょっと残しておきます。

今日のネタ本はこちら:

Excelで学ぶ共分散構造分析とグラフィカルモデリング

Excelで学ぶ共分散構造分析とグラフィカルモデリング

私はとってもこの本が大好きです!「エクセル」と銘打たれているので敬遠しがちかもしれませんが、かゆいところに手が届いてくる良い説明の多い本だと思います。みんな買うとよいと思うなあ。

「マルチコ」と「マルチコモドキ」

この本でたいへん勉強になったのは、いわゆる多重共線性(以下マルチコと略)の問題といわれているものの中には実は次の二つが含まれるという話です。

  • 本来のマルチコ:ある1つのモデルにおける偏回帰係数の標準誤差の増大
  • マルチコモドキ:モデルによって偏回帰係数の値が変わるという問題

この「本来のマルチコ」の方は、説明変数間の相関によって偏回帰係数の誤差が大きくなる(統計的不安定さが増す)という問題で、VIF(分散拡大係数)などを計算して診断することができます。

一方、「マルチコモドキ」の方のは、モデル(説明変数セットの選び方)によって偏回帰係数の値が変わる*1という問題です。この問題の本質は統計的不安定さではないのでVIFでは対処できず、何らかの形で因果パスについて考察していく必要がでてきます*2

(詳しくは上記の本をご参照ください)

重回帰分析の推奨ストラテジー

上記の本で書かれていた重回帰分析の推奨ストラテジー*3をメモします(強調は引用者による)。

  • 分析をする前にパス図を描いてみる。
  • 本来関心ある変数(要因)の他、共変量もパス図に描く。
  • 要因と共変量の峻別は重要である。
  • 共変量も説明変数の候補とする。
  • p値、F値、t値などの基準により、効果のない共変量はモデルから外す。
  • 共変量の偏回帰係数は積極的に解釈する必要はない。
  • 要因の偏回帰係数は、他の要因が同じという条件下の効果であることを肝に銘じて解釈する。
  • 偏回帰係数が実感にあわない要因がある場合、その要因に影響を受ける要因がモデル内にあるはずである。要因間の回帰分析により間接効果を把握する。

ここで最後の一文はもはやパス解析、ということになりますね。

「説明変数の相関係数が低くなるように変数選択する」のはダメなんすか?

上記の本では次のように説明されています(強調は引用者による):

次に、よく推奨される「説明変数間の相関が低くなるように変数選択する」という方針については、一理あると思いますが、必ずしも安全な方法ではないとも思われます。なぜなら、本来関心のある説明変数に対して共変量となる変数は、相関が高いのでモデルから外されることになるからです。すると、得られる偏回帰係数には、外した共変量による擬似相関の効果が加算されてしまいます。この方針をとった場合、偏回帰係数は、その変数そのものの効果というよりも、その変数によって代表される、背後や周辺の変数まで含めた状況による効果を表していると考えるべきです。皮肉なことに、説明変数間の相関が低くなるように変数選択すると、偏回帰係数の解釈には注意が必要になるのです。

なるほど。

相関係数だけ見て外していくと、因果上の効果が大きい変数も外されてしまうことがあり、その分の効果が他のとこに付け加わってしまうことがあるんですよね。これはモデルを「予測(リスク評価)」にのみ使うのならば問題は少ないのかもしれませんが、「介入(リスク管理)」にも使いたいのであればちょっと困ったことになります(ある変数に関する「偏回帰係数の大きさ」と「介入時に期待される効果の大きさ」が乖離するので)。

「介入にも使うモデルのための変数選択」はどうしたらいいの?

以前にも書きましたが、個人的には

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

の中で書いてある「パス図書いてバックドア基準を満たすように変数を選択すればOK」というのがどうやらファイナルアンサーなのかなあと思ってます。たぶん。いや本当のところはあまり自信がないんですケドね。



(ああいつか白馬に乗った統計学者があらわれて我々を導いてくれないものだろうか)
.

*1:極端な場合には符号まで変わっちゃうこともありますよね

*2:件の主成分分析押しというのも因果パスを考慮するひとつのストラテジーなのかもしれない

*3:予測ではなく要因分析を目的とする場合。また良質のデータとある程度の分析者の技量を前提として、とのこと