良い機会なので重回帰分析についてのメモをちょっと残しておきます。
今日のネタ本はこちら:
- 作者: 小島隆矢
- 出版社/メーカー: オーム社
- 発売日: 2003/12
- メディア: 単行本
- 購入: 13人 クリック: 152回
- この商品を含むブログ (9件) を見る
「マルチコ」と「マルチコモドキ」
この本でたいへん勉強になったのは、いわゆる多重共線性(以下マルチコと略)の問題といわれているものの中には実は次の二つが含まれるという話です。
- 本来のマルチコ:ある1つのモデルにおける偏回帰係数の標準誤差の増大
- マルチコモドキ:モデルによって偏回帰係数の値が変わるという問題
この「本来のマルチコ」の方は、説明変数間の相関によって偏回帰係数の誤差が大きくなる(統計的不安定さが増す)という問題で、VIF(分散拡大係数)などを計算して診断することができます。
一方、「マルチコモドキ」の方のは、モデル(説明変数セットの選び方)によって偏回帰係数の値が変わる*1という問題です。この問題の本質は統計的不安定さではないのでVIFでは対処できず、何らかの形で因果パスについて考察していく必要がでてきます*2。
(詳しくは上記の本をご参照ください)
重回帰分析の推奨ストラテジー
上記の本で書かれていた重回帰分析の推奨ストラテジー*3をメモします(強調は引用者による)。
- 分析をする前にパス図を描いてみる。
- 本来関心ある変数(要因)の他、共変量もパス図に描く。
- 要因と共変量の峻別は重要である。
- 共変量も説明変数の候補とする。
- p値、F値、t値などの基準により、効果のない共変量はモデルから外す。
- 共変量の偏回帰係数は積極的に解釈する必要はない。
- 要因の偏回帰係数は、他の要因が同じという条件下の効果であることを肝に銘じて解釈する。
- 偏回帰係数が実感にあわない要因がある場合、その要因に影響を受ける要因がモデル内にあるはずである。要因間の回帰分析により間接効果を把握する。
ここで最後の一文はもはやパス解析、ということになりますね。
「説明変数の相関係数が低くなるように変数選択する」のはダメなんすか?
上記の本では次のように説明されています(強調は引用者による):
次に、よく推奨される「説明変数間の相関が低くなるように変数選択する」という方針については、一理あると思いますが、必ずしも安全な方法ではないとも思われます。なぜなら、本来関心のある説明変数に対して共変量となる変数は、相関が高いのでモデルから外されることになるからです。すると、得られる偏回帰係数には、外した共変量による擬似相関の効果が加算されてしまいます。この方針をとった場合、偏回帰係数は、その変数そのものの効果というよりも、その変数によって代表される、背後や周辺の変数まで含めた状況による効果を表していると考えるべきです。皮肉なことに、説明変数間の相関が低くなるように変数選択すると、偏回帰係数の解釈には注意が必要になるのです。
なるほど。
相関係数だけ見て外していくと、因果上の効果が大きい変数も外されてしまうことがあり、その分の効果が他のとこに付け加わってしまうことがあるんですよね。これはモデルを「予測(リスク評価)」にのみ使うのならば問題は少ないのかもしれませんが、「介入(リスク管理)」にも使いたいのであればちょっと困ったことになります(ある変数に関する「偏回帰係数の大きさ」と「介入時に期待される効果の大きさ」が乖離するので)。
「介入にも使うモデルのための変数選択」はどうしたらいいの?
以前にも書きましたが、個人的には
統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)
- 作者: 宮川雅巳
- 出版社/メーカー: 朝倉書店
- 発売日: 2004/04
- メディア: 単行本
- 購入: 6人 クリック: 67回
- この商品を含むブログ (22件) を見る
(ああいつか白馬に乗った統計学者があらわれて我々を導いてくれないものだろうか)
.