どもっす。先日のdo演算子についてのエントリーに関しては多数の方々にブクマやスターをいただき大変ありがとうございました。書いてよかったです。。。
さて。
その先日のエントリーに関連して、id:aggren0xさんに面白いエントリーをいただきました。
このエントリー内でaggren0xさんは、遺伝統計学における「因果問題」は特殊なのではないかと語っておられます。内容を引用しますと:
ところで、疫学ではなく遺伝統計学のほうの話で、これは教科書に書いていることではなく(あるかもしれないが記述は見たことがない)、遺伝学者での雑談として「そうだよねえ」と言っていたことなのですが、
「統計学者を悩ます因果律の問題は、遺伝統計学における遺伝的関連・連鎖においては問題にならない。これは遺伝学の特殊な性質である。」
というもの。なぜなら、DNA(遺伝因子が刻まれているもの)→ RNA → タンパク → ・・・ → 病気、というのはほぼ絶対的な関係なので、かならず遺伝因子が原因、病気が結果となるはずだから。「ほぼ」と書いたのは、レトロウイルスなどによる組み込みや放射線や癌などによる後天的な変異があるからだけれど、「遺伝的関連・連鎖」が表すものはそういった後天的変異によるものではないので。
どうなんでしょうね。そうなんだと思ってるんですけど。
どうやら、遺伝学者の間では、遺伝統計学ではあまり因果の問題で苦労しないよねー、というのが実感レベルでのコンセンサスであるらしいのです*1。
aggren0xさんのこのエントリーの中では、わたしめにもこの件についてのご意見を求めていただきました*2。
そこで、今回はこのaggren0xさんへの返エントリーとして、「遺伝統計学における因果問題の特殊性」について「因果グラフの構造と交絡」という観点から考えていきたいと思います。
交絡ってなんすか?:因果グラフから見てみよう
はい。ではまず、「交絡」とは何かというところからみていきたいと思います。
Wikipediaの「交絡の項」の冒頭を引用してみましょう:
交絡(こうらく、英:Confounding)は、統計モデルの中の従属変数と独立変数の両方に(肯定的にまたは否定的に)相関する外部変数が存在すること。そのような外部変数を交絡変数(confounding variable)、交絡因子(confounding factor, confounder)、潜伏変数(lurking variable)などと呼ぶ。したがって科学的研究では、第一種過誤(従属変数が独立変数との因果関係にあるという偽陽性の結論)と呼ばれるこれらの要因を避けるよう制御する必要がある。2つの観測された変数のそのような関係を擬似相関という。すなわち交絡が存在する場合、観測された現象の真の原因は交絡変数であるにも関わらず、独立変数を原因と推論してしまう。
はい。ここで述べられているように、交絡因子があると「本当に知りたい要因(独立変数)が結果にもたらす効果」と「それ以外の要因(交絡因子)が結果にもたらす効果」が混ざってしまうために因果の推定がむずかしくなります。そのため、交絡因子がある場合には、その因子からの影響を何らかの方法でコントロールする必要がでてきます。(そして、この「コントロール」がしばしば困難なので、統計解析者は悩むことになるわけです)
一方、「交絡因子とは何か」については上記の引用にも説明がありますが、ちょっと雑な説明なので、ここで一度もう少し正確に理解しておきましょう。ここでは「交絡概念」を因果グラフの構造と対応させて考えていきます。
宮川さんの著書「統計的因果推論」によると、交絡因子の要件は:
- (1) 交絡因子Zは目的変数Yに影響する
- (2) 交絡因子Zは説明変数Xに関連している
- (3) 交絡因子Zは説明変数Xから影響されない
とまとめることができるようです(p9)。逆に言うと、この3つを全てみたす要因が「交絡因子」となります。
上記の3要件を因果グラフの構造と対応させてみましょう。
(1) (2) (3)の要件を全てを満たす因果グラフを描くと:
のような因果グラフが対応することになります。ここで(3)の条件により、XからZの向きへの因果がある場合は除外されていることがひとつのポイントとなります。
このような因果グラフの構造をもとに「交絡」をコトバでまとめると:
「説明変数Xの"上流側*3"に、説明変数Xと目的変数Yの両者に影響をもたらす要因がある」
ときに「交絡がある」ということになります。
では、このような因果グラフ構造を念頭におき、「諸疫学」および「遺伝統計学」における「因果の構造」について見ていきます。
諸疫学における交絡のパターンを因果グラフで考える
ではまず、遺伝統計学での交絡のパターンを見る前に、諸疫学分野においてはどういう「交絡」によって苦労させられるかについて見ておきましょう。
以下にポンチ絵的によくありそうな交絡パターンの構造を描いてみました:
これらの図を順にみていきます。
まず、(A)のいわゆる「疫学」っぽい例を見ていきましょう。この例では、「コーヒーの摂取量」が「発がん率」に与える影響が解析のテーマになっています。ここで一般的な知識として、「コーヒーの摂取量」と「喫煙習慣の有無」は関連があることが知られているので*4、そのような知識をもとに因果グラフを描くと(A)のようになります。このような因果構造がある場合には、「喫煙」の影響をコントロールしないと、「コーヒー」が「発がん」に与える影響を適切に推測することができません(喫煙の影響と混ざってしまう)。
また、潜在的な交絡要因は「喫煙」だけではないかもしれません。例えば、「コーヒーの摂取量」と「食生活(野菜不足など)」なども関連している可能性もあるかもしれません。このように、「コーヒー摂取量」と「発がん」の両者の"上流"となりうる要因が潜在的に多数ある場合には、それだけ交絡の調整もやっかいな作業となります。
次に、(B)の「環境疫学」っぽい例を見ていきましょう。この例では、「環境中の鉛への曝露」が「小児の知能(試験スコア)」に与える影響が解析のテーマになっています。もし、ここで「工場周辺などの鉛汚染が強い場所は住宅コストが安い」というような状況があると、(B)図のように「経済力」が「鉛曝露」と「試験スコア」の両方の"上流"の要因としてはたらく可能性がでてきます。そのため、「経済力」(あるいはその下流にある「教育」)の影響をコントロールしないと、「環境中の鉛への曝露」が「試験スコア」に与える影響を適切に推測することができなくなります。このような交絡も気づきにくいので、やっかいです。
また、(C)の臨床疫学の例はどうでしょうか。この例では、「薬Aの処方」が「患者の生存率」に与える影響が解析のテーマになっています。この因果の例は一見単純そうですが、もし「薬Aが処方されるかどうか」が「処方前の病態」に依存するような状況(例えば重症患者にのみ処方される場合など)では、「処方前の病態」が、「薬Aの処方」と「生存率」の両方の"上流"の要因としてはたらく可能性がでてきます。そのため、「処方前の病態」の影響をコントロールしないと、「薬Aの処方」が「患者の生存率」に与える影響を適切に推測することができなくなります。こういう場合も、気をつける必要がありますよね。
さてさて。
では、(D)の遺伝統計学の例ではどうでしょうか。ここでは、ある「遺伝子(DNA配列)」が「疾病の生起率」に与える影響に興味があるとします。このとき、「ある遺伝子(DNA配列)をもつこと」と「疾病の生起率」の両方の"上流"としてはたらく要因ってあるでしょうか? そんな要因は、あまりないように思われます。
はい。ここでもう私の今回の結論を書いてしまうと:
遺伝統計学において因果問題があまり問題とならないのは、「ある遺伝子(DNA配列)をもつこと」と「疾病の生起率」の両方の"上流"としてはたらく要因があまりないから
ということになります。
遺伝統計学において交絡が生じるケースを考えてみよう
もうちょっと考えてみます。
「ある遺伝子(DNA配列)をもつこと」と「疾病の生起率」の両方の"上流"としてはたらく要因ってどういうものがあるでしょうか? 私も二日ほど考えてみたのですが、おそらく以下の二つのケースにほぼ絞られるだろうという自分内結論に至りました:
まずその(1)ですが、「調査対象集団の中にサブ集団がある」ケースです。違う言い方をすると、いわゆる「集団が不均一」「ランダム交配ではない」「集団が構造化されている」などのケースに対応するかと思われます。
例えば極端な例として、調査対象集団が「日本人」と「アメリカ白人」の2つのサブ集団から構成されていたとしましょう(それぞれのサブ集団内は遺伝的に均一である*5とします)。
ここで、「ある特定の遺伝子をもつこと」が「高血圧」に与える影響が今回の解析のテーマであるとします。このとき、この遺伝子が実は「乳糖不耐の遺伝子」であったとしましょう。乳糖不耐の遺伝子を持っているとミルクを飲むとお腹がゴロゴロするらしいのですが*6、日本人の95%がこの遺伝子をもっていて、アメリカ白人はたったの14%しかこの遺伝子をもっていないようです(ソース)。
このとき、「日本人であること」は、「乳糖不耐の遺伝子をもつこと」と「高血圧」の両方の"上流"の要因となる可能性があります*7。そのため、「乳糖不耐の遺伝子」が「高血圧」に与える影響を適切に推測する(=両者の関係が偽相関であることを正しく認識する)ためには、「日本人/アメリカ白人」というサブ集団構造からの影響をコントロールして解析する必要があります*8。
上記のような主旨の記述が実際の例でないだろうかちょっとググってみたのですが、意外とそのものズバリの記事がありました:
2つのグループに分かれる日本人 - Research Highlights - RIKEN RESEARCH
記事によると、「日本人は2つのサブグループに分かれており」、そのことにより「疾患と遺伝子についての誤った関連性が導かれるおそれがある」ようです。やっぱり遺伝統計学においてこのような"交絡"の調整は重要であると認識されているようです。
一方、上図右側(2)のケースですが、「連鎖(不平衡)」も交絡要因として働くのだろうと考えられます。というか、上の図(2)の遺伝子Aを「遺伝マーカー」に置き換えると、遺伝統計学者が遺伝マーカーを使って目的の遺伝子を釣り上げるときの図式そのものに相当するかと思われます。つまり、疾病に関連する遺伝子を探索する際には、「遺伝子マーカー」と「疾病」の間の「偽相関」を利用しているわけですね。
結論1:因果グラフの構造からみた遺伝統計学における因果問題の特殊性
まとめます。
今回は、因果グラフを使って「遺伝統計学における因果問題の特殊性」について考えてきました。私なりに得られた結論は:
- 遺伝統計学において因果問題があまり問題とならないのは、「ある遺伝子(DNA配列)をもつこと」と「疾病の生起率」の両方の"上流"としてはたらく要因があまりないから*9
- 「集団の中のサブ集団」は遺伝統計学における数少ない交絡要因っぽい
- (遺伝子を釣るときに)「偽相関」を積極的に使うというのは遺伝統計学のもう一つの「特殊性」かも
というかんじですかね。
この結論がどのていど実際の「正解」に近いかどうかはともかくとして、因果グラフ方面から考えていくと概ねこんなかんじになるんじゃないかと思います。はい。
【追記による補足:上記で「集団構造」と「連鎖不平衡」が交絡要因になりうると書きましたが、実際にはそれらの背景メカニズムおよび確率モデルの明確さから、それらの要因の影響を技術的に「見切る」ことは比較的容易なので(*コメ欄のaggren0xさんによる補足もご参照ください)、やっぱり遺伝統計学では因果の問題で困ることはない、というのが結局の結論になるかと思います。つまり、遺伝統計学の枠組みでは潜在的に交絡要因が殆んどなく、わずかにあるものでも技術的に対応可能なので、遺伝統計学においては因果問題がやっかいな問題にはならない(相関=因果効果と素朴に考えてもほぼOK)のだろう、ということになります】
結論2:因果グラフ最強論
で、このエントリーにはもう一つのウラの結論があります。それは:
因果グラフって超便利だよね!
というものです。もしこのエントリーの内容を因果グラフ無しで説明しようとしたらかなり大変っすよ。。。
因果グラフ、キタッーー!!*10
【*ちなみに今回のエントリーで今年の更新はおしまいになります】
本年は大変ありがとうございました。
そして来年もよろしくお願いいたします。
みなさま、よいお年を!
今回の参考図書:
統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)
- 作者: 宮川雅巳
- 出版社/メーカー: 朝倉書店
- 発売日: 2004/04
- メディア: 単行本
- 購入: 6人 クリック: 67回
- この商品を含むブログ (22件) を見る
*1:うらやましい
*2:光栄でございます
*3:上流の要因→目的変数の間の中間変数を含む
*4:もしかしたら今の若い人には想像つかない可能性もあるので一応書いておきますが、「コーヒー」と「タバコ」はかなりセットのものとして考えられていた時代があるのですよ!→[http://coffee-c.com/:title=参考]
*5:ハーディワインベルグ平衡にある
*6:詳しくは[http://ja.wikipedia.org/wiki/%E4%B9%B3%E7%B3%96%E4%B8%8D%E8%80%90%E7%97%87:title=wikipedia]や[http://ep.blog12.fc2.com/blog-entry-264.html:title=ここ]
*7:でも「日本人」というのを「原因」とみなすのはちょっと不自然かも? モデルとしては背後に両者の何らかの共通因子を仮定したほうが良かったかもしれない。
*8:この場合には「日本人/アメリカ白人」で層別化して解析すればよい
*9:aggren0xさんはエントリー内でDNA配列の"下流"に着目していたけれど、交絡を考える上ではむしろ"上流"こそが問題となるかと思われます
*10:一昨日にイーアスで見た仮面ライダー劇場版が面白かったので、つい。ちなみ歴代の劇場版の中でもピカイチの出来だと思いました。映司とアンクと里中さんの生身のアクションがすごかった。あと脚関係。