確率と因果を革命的に架橋する:Judea Pearlのdo演算子
皆さまこんばんは。今回から数回のあいだは、久しぶりに統計的因果推論ネタについて書いていきたいと思います。
今回の具体的なテーマは「Judea Pearlのdo演算子」になります。マニアックです。
このテーマについては自分でも完全に理解しているわけでは全くないので、「解説」というよりも「半可通が書いた公開勉強メモ」というかんじになりますが、その旨ご了承いただければ幸いです。
(*例によって今回もまためちゃくちゃ長いエントリーとなりますが、何卒よろしくお願いいたします。また、間違いなどがありましたらその旨ご指摘いただければ大変幸甚でございます>本物の識者の方々)
まえおき:Judea Pearlって誰すか?
はい。ではそもそもその「Judea Pearlって誰すか?」というところから書いていきたいと思います。
結論から言うと私もよく知りません。ですが、周辺的手がかりからヒューリスティックに判断すると、けっこう凄いひとのようですよ。
WikipediaのJudea Pearlの項の冒頭を見ると(強調引用者):
Judea Pearl (born 1936) is a computer scientist and philosopher, best known for developing the probabilistic approach to artificial intelligence and the development of Bayesian networks (see the article on belief propagation). He is also credited for developing a method of causal and counterfactual inference based on structural models (see article on causality).
となっています。計算機科学者かつ哲学者、ということですね*1。ベイジアンネットワーク(とくにberief propagation)および人工知能における確率論的アプローチの構築における功績がよく知られているようです。
また、構造モデルにもとづく因果推論に関する方法の構築でも認められているようです。この部分が今回のテーマに関するところになります。
またWikipediaの項の続きには以下のように書かれています(強調引用者):
Pearl is described as "one of the giants in the field of artificial intelligence” by UCLA computer science professor Richard Korf.
なるほど。"人工知能業界の巨人のひとり"と目されているようです。いまどき"巨人"という形容も珍しいですよね。。。
しかしこの"巨人"というのも全く大げさではなく実際にものすごくリスペクトされているようで、(まだ御存命ですが)Judea Pearlトリビュート本というものも出ていたりするようです。
Heuristics, Probability and Causality. a Tribute to Judea Pearl
- 作者: Rina Dechter,Hector Geffner,Joseph Y. Halpern
- 出版社/メーカー: College Publications
- 発売日: 2010/02
- メディア: ハードカバー
- この商品を含むブログを見る
WikipediaのJudea Pearlの項の別の部分には以下のようにも書かれています:
His work on causality has "revolutionized the understanding of causality in statistics, psychology, medicine and the social sciences" according to the Association for Computing Machinery.
おお。「Pearlの因果についての仕事は統計学・心理学・医学・社会科学における因果の理解において革命を起こした」と書かれています。
「革命」なんておおげさな!
とふつうは思いますよね。
でもこれが・・・Pearlの本を実際に読んでいると・・・・・・ざわ・・・ざわ・・・これは・・・革命かも・・・と実際に思えてきてしまうんですよね。。。
統計学ファンのみなさまの中には、おそらく統計学を拓いた偉人/奇人たちについて書かれた以下の本:
- 作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生
- 出版社/メーカー: 日本経済新聞社
- 発売日: 2006/03/20
- メディア: 単行本
- 購入: 28人 クリック: 366回
- この商品を含むブログ (91件) を見る
をご存知の方も多いかと思われます。
もしも、これから50年後にこの本の続編が書かれたら、このJudea Pearlこそがその中心人物の一人となるのだろうなあとPearlの本を読んでいるとなんだか思わされてしまったりするのです。
そうなんすよ。
今回の元ネタ本のご紹介
はい。というわけで今回のエントリーはその「Pearlの本」を元ネタに書いていきます。具体的には以下の本になります:
- 作者: Judea Pearl,黒木学
- 出版社/メーカー: 共立出版
- 発売日: 2009/02/24
- メディア: 単行本
- 購入: 6人 クリック: 231回
- この商品を含むブログ (25件) を見る
- 作者: Judea Pearl
- 出版社/メーカー: Cambridge University Press
- 発売日: 2009/09/14
- メディア: ハードカバー
- 購入: 1人 クリック: 33回
- この商品を含むブログ (9件) を見る
訳書が第1版、洋書が第2版となります。
このPearlの本は、めちゃくちゃ独創的で面白いのですが、めちゃくちゃ独創的で読みにくいという大変こまった特徴があります。
まあ、私が読みにくく感じること自体は単なる私の数学的実力不足によるところが大なのですが、日本における統計的因果推論/グラフィカルモデリングの第一人者である東工大の宮川教授もご自身の以下の著書のあとがきでこう書かれています(強調引用者):
統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)
- 作者: 宮川雅巳
- 出版社/メーカー: 朝倉書店
- 発売日: 2004/04
- メディア: 単行本
- 購入: 6人 クリック: 67回
- この商品を含むブログ (22件) を見る
ところで、まえがきで引用したように、この分野の第1人者であるPearlは2000年にそれまでの研究成果をまとめた成書を発表する。この本はそれまでの多数の論文の集大成ではあるものの、テキストとして必ずしも十分に編集されてはいない。それゆえ読みづらい。不遜ながら筆者が本書の執筆を思い立ったのは、この本の難解さにあったといえる。とはいえ、この本の内容はきわめて独創的かつ秀抜であり、引用文献も充実している。Kuroki and Miyakawa (1999)まで引用していることには、光栄とともに驚いている。
というわけで、やはりPearlのこの本は、宮川さんのようなこの分野の第一人者にとっても「読みづらい」ものであるそうです。
はい。
というわけで、ぶっちゃけ私も今回このPearl本の内容をもとにエントリーを書くにもかかわらず、このPearl本の通読はできていません*2。今回からの数回のエントリーでは、上掲の宮川さんの本をものすごく参考にしながら、いくつかの特定テーマに絞って「読めて、面白い」ところをつまみ食いしながら書いていきます。(具体的には、今回はPearl本の「エピローグ」として収録されている巻末の解説*3をベースに書いていきます)
まず今回は、Judea Pearlのアプローチのキモのひとつとなる"do演算子"*4をテーマに書いていきます。
今回のエントリーの話の流れとしては:
というかんじになります。
(ここまでが前置きで、これからが本題になります。前置き長すぎですね。。。)
統計学における「因果概念」の扱いの耐えられない軽さについて
まずは、いままでの統計学における「因果」の扱いについて、Peal本の記述をベースにまとめていきたいと思います。
統計学の歴史自体の話はフランシス・ゴルトンやカール・ピアソンから始めても差し支えないかと思いますが、統計学以前の因果推論についての哲学的議論(のうち今回の議論に直接繋がるもの)として、ひとまずデイヴィッド・ヒュームの因果推論についての考えから見ていきましょう。
Wikipediaのヒュームの項の因果関係に関する彼の思想の部分を引用します:
一般に因果関係といわれる二つの出来事のつながりは、ある出来事と別の出来事とが繋がって起こることを人間が繰り返し体験的に理解する中で習慣によって、観察者の中に「因果」が成立しているだけのことであり、この必然性は心の中に存在しているだけの蓋然性でしかなく、過去の現実と未来の出来事の間に必然的な関係はありえず、あくまで人間の側で勝手に作ったにすぎないのである。では「原因」と「結果」と言われるものを繋いでいるのは何か。それは、経験に基づいて未来を推測する、という心理的な習慣である。
ということで、ヒュームは因果律を学習により形成された「心理的な習慣」であるとみなしたわけです。
確かに、よくよく考えてみると、「因果律というのは学習の産物である」というのは否定できないものがあります。(われわれは"Aの後にBが起こる”という個々の事実を観察することはできるが、"AがBを引き起こす”という因果律自体はどこまで行っても「観察された個別事例」から帰納的に得られたわれわれの"学習の産物"にすぎないので)
このような因果律に関する捉え方は、以下に見ていくようなカール・ピアソン以降の統計学における「因果」概念の無視あるいは軽視の話と通底するものとなります。
Pearl本によると、統計学から「因果」概念を追放した統計史上の張本人はカール・ピアソンであるそうです。ピアソンは、「因果概念」は科学的な概念であるというよりもアニミズム的*5なものであると考え、「因果関係」の代わりに「分割表」を用いることでより"科学的"に問題を取り扱うことができると考えたのです。
ピアソンは以下のように述べています(Pearl本からの孫引用; p354):
そのような表は分割表とよばれる。2つの事象どうしの関係を表現する際にこのような分割表を用いれば、常に基本的で科学的な記述を得ることができる。
いったん分割表の特徴がわかれば、因果関係に関する概念の本質を十分にとらえることができるだろう。
ここでピアソンは、「因果関係」という概念の必要性を完全に否定し、分割表により記述可能な「相関関係」にもとづき議論することこそが科学的である、という立場をとっています。(われわれがデータとして記述可能なのは「相関関係」だけであり、記述可能なもののみに立脚することによってより純粋な科学が遂行できる、という立場)
Pearlはピアソンの因果概念に対する影響を次のようにまとめています(p354):
彼(引用者注:ピアソン)が行った「意志」と「力」のようなアニミズム的概念に対する戦いはすさまじく、むしろ因果関係をなくそうとしていたので、決定論に対する拒否反応は相当なものでした。そのため、統計学において因果関係という概念が定着する機会を得る前に、彼は統計学の世界から因果関係を消滅させてしまったのです。
Pearl本によると、一般には統計学における因果関係の扱いについては未だこのピアソン的考えが支配しているそうです*6 *7。
Pearl本ではその傍証となる以下のような例が述べられています(p355):
- (1) Encyclopedia of Statistical Scienceでは「相関」の項は12ページあるのに「因果」の項は2ページしかない(しかもその1ページは「相関は因果を意味しない」ことの説明)
- (2) 元計量生物学会会長のTerry Speed氏曰く:『因果関係に対する考えについては、これまで統計学において扱われてきたように今後も扱うべきである。すなわち、まったく考えないのが一番よいのだが、必要であれば、扱う際に最新の注意を払わなければならない』
- (3) David Cox *8とNanny Wermuth氏曰く:『本書では、因果や因果関係という言葉を使うことはない。・・・なぜなら、因果関係に関する確たる結論が一つの研究から導かれることはほとんどないからである』
- (4) 1987年にある一流の社会学者が曰く:『多くの研究者が原因や結果といった言葉を考えたり使ったりするのをやめれば、大変健全な状態になるだろう』
さてさて。
そもそも論をいえば、このような状況は非常に奇妙にも思えます。なぜなら、実際にはわれわれが統計解析を行うときに興味があるのは(相関関係ではなく)「因果関係」である場合がほとんどだからです。
なぜ、統計学はこんなにも「因果」概念を取り扱うことに対して冷淡なのでしょうか。
この問いに対するPearlの「回答」はちょっと意外なものになります。
Pearl曰く:それは"確率論という言語"の限界である
ではPearlの「回答」を見て行きましょう。
Pearl本の該当部を引用していきます(p355):
このような状況はたった一人の人間がつくり出したことなのでしょうか?ピアソンのような海賊であってもつくり出せることなのでしょうか?
私はそうは思いません。
しかし、仮説検定や実験計画法という非常に強力な概念を与えた統計学が、なぜ因果関係についてはそんなに早い時期にあきらめたのか、ほかに理由はないのでしょうか?
もちろん、因果関係は相関と比べると、非常に測定しにくいというのが明快な理由の一つです。相関はひとつの研究に基づいて直接することができますが、因果関係に関する結論を導くためには、コントロールされた実験を行わなければならないのです。
しかし、この理由はあまりにも単純すぎます。統計学者はそのような難問に出会っても簡単にあきらめるようなことはありませんし、子どもたちはコントロールされた実験を行わなくてもちゃんと因果関係を学習しています*9。
私は、その答えはもっと深いところにあると信じています。それは統計学の公式言語、すなわち確率言語に関係するものです。
確率論では「原因」という言葉を扱うことができないと聞くと驚かれる方もいるかもしれませんが、「ぬかるみが雨の原因ではない」という文を確率言語で説明することはできません。私たちにいえることといえば、2つの事象が互いに相関をもつあるいは従属しているということ、すなわち、一つの事象がわかればもう一つの事象も期待できるということくらいなのです。
読者としてはここらへんが萌えどころになるかと思います。
「確率論では「原因」という言葉を扱うことができない」
とは、一体どういうことなのか。。。
さらに読んでいきましょう。
Judea Pearlによるdo演算子の導入:確率論の「〜である」と因果推論の「〜にする」
はい。ではさらに説明を読み進めていきます。
Pearl本では、「確率論では「原因」という言葉を扱うことができない」というところの説明の前段階として、(ちょっと回り道に感じるかもしれませんが)まず「介入的記述」と「観察的記述」の違いについて語られます(p363):
ご存知のとおり、科学的活動は、観察と介入という2つの基本要素から構成されています。
2つの組み合わせは実験室、すなわち、条件のいくつかを制御し、それ以外のものを観察する場所で行われています。標準的な代数学は観察研究に対して大きな貢献をしましたが、介入に対してはそれまで役に立たなかったのです。このことは、方程式の代数、ブール代数、確率計算に対して当てはまります。これらはすべて介入的記述ではなく、観察的記述に役立つように整備されているのです。
ふむふむ。その「介入的記述」ってどういうこと?というかんじですね。
次の例示を読んでいきましょう:
例として、確率論を考えましょう。芝生が濡れていることがわかったときに雨が降った確率を調べる場合、P(雨|濡れる)という形式的記述を用いて問題を表現します。これは、芝生が濡れているという条件の下で雨が降った確率であり、垂直の線は「観察したという条件の下では」ということを意味しています。私たちは、形式的記述を用いてこの問題を表現できるだけではなく、確率論のツールを使ってこの記述を他の表現に書き換えることもできます。この例では、P(濡れる|雨)P(雨)/ P(濡れる)という表現が便利もしくは有用である場合には、P(雨|濡れる)ではなく、P(濡れる|雨)P(雨)/ P(濡れる)を使ってもかまわないのです。
しかし、ここで、「もし芝生を濡らしたら、雨が降った確率はどうなるか?」という異なる問題を考えてみましょう。垂直の線は「観察したという条件の下では」という意味なので、確率論のフレームワークでは、この問題を記述することさえできないことがわかります。そこで、"do"という新しい記号を考え、線のあとにdoがついている場合には、それを「私たちが実行したという条件の下では」と解釈することにします。しかし、この新しい記号に対して確率論の規則を適用することはできないため、これだけでは問題に対する答えを計算するのに役には立ちません。芝生を濡らしたからといって雨が降る確率が変わるわけではないので、直感的にその答えがP(雨)であるということがはわかります。しかし、直感がはたらかない場合でも簡単に考えることができるようにするために、このような直感的な答えやそれと似たような答えを機械的に得る方法はないものでしょうか?
答えは"Yes"で、そのために新しい代数を使います。まず、「私たちが実行したという条件の下では」という新しいオペレーターにたいして記号を割り当て、次にこの新しい記号を含む記述を扱うための規則を開発します。この規則は、数学者が標準的な代数規則を発見したのと同じような方法で開発することができるのです。
Yes! ここで"do演算子"が導入されましたね。
上の文章での第一のキモは:
『ここで、「もし芝生を濡らしたら、雨が降った確率はどうなるか?」という異なる問題を考えてみましょう。垂直の線は「観察したという条件の下では」という意味なので、確率論のフレームワークでは、この問題を記述することさえできない』
というところですね。狐につままれたように感じるかもしれませんが、確かに、確率論の記号をどう駆使しても、「もし芝生を濡らしたら、雨が降った確率はどうなるか」という問題は記述することさえできないのです。
一方、その返す刀でPearlが導入するのが"do演算子"になります。do演算子を用いると、「もし芝生を濡らしたら、雨が降った確率はどうなるか?」という問題は、P(雨|do(濡れる))という形で記述することができます。
一応演算子としての規則を以下に引用しますが、ここにはあまり深入りしませんので、ナナメ読みしていただいても無問題です(こちらのPearlのプレゼン資料PDFから引用)。
このようなP(A|do(B))という記号および演算規則を用いることにより、私たちは「芝生を濡らしたら」という介入行為/因果関係について記述することができるようになるわけです。
【補足:なぜ状態の記述(「濡れている」)ではなく介入の記述(「do(濡れている)」)が因果推論において重要なのかをもうちょっと素朴な形でも少し説明しておきます。「AとBに相関がある」場合に、「原因A→結果B」の形の因果であるか「原因B→結果A」の形の因果であるのかを見分けるにはどうしたら良いでしょうか。ここで例えば、「Aを変えたときにBが変化する(かつBを変えてもAは変化しない)」ならば「原因A→結果B」の因果関係であると我々は一般に認識しますし、逆に「Bを変えたときにAが変化する(かつAを変えてもBは変化しない)」ならば「原因B→結果A」の因果関係であると我々は一般に認識します。このように「〜である」という「状態」ではなく、「〜を変えたとき」という「介入」に着目することで、相関関係から因果関係を導き出すというのは、実は我々が日常の生活での日常の思考においてやっていることでもあります。そのような我々の日常の思考における「介入」という概念を記号的に表現したのがPearlのdo演算子であるわけです】
"do演算"という記号の概念上の意義:環境基準をめぐる仮想例をもとに
さて。上記での"do演算子"の導入を見て、「そんなの単なる記号遊びなんじゃないの?」と思った方もいらっしゃるのではないでしょうか。
ここからは、Pearl本の記述そのものからは離れて、"do演算子"という記号の概念上の意義、つまりP(A|B)とP(A|do(B))の違いを認識することの本質的な重要性について考えていきます。
以下、重金属の生態リスク管理の文脈における仮想的な例をもとに考えていきたいと思います。
われわれの仕事は河川中汚染物質の生態リスクの管理であるとしましょう。そして現在、河川水中の亜鉛が河川底生生物に与える生態リスクの管理が検討課題に挙げられているとします*10。
ここでリスク管理のための具体的な策として:
- 「亜鉛の環境基準値を30μg/Lに設定する」ことにより生態リスクを管理する
ことが検討されている状況を考えてみましょう。
ここで、(コントロールされた実験ではない)フィールド調査から得られた「亜鉛」と「河川底生生物の種数」のデータからは、以下のFig1のような関係が得られているとします。
さて、このケースをもとに考えてみましょう。もしわれわれが「亜鉛の環境基準値を30μg/Lに設定し、その結果として濃度を基準値以下にするための亜鉛濃度の削減対策が取られ、ある高濃度汚染河川における亜鉛濃度を30μg/Lへと変化させた」ときに、その河川における種数の予測値はどのようになるでしょうか?
上の図から単純に考えると、「亜鉛濃度=30μg/L」に対応する「50種」という値が予測値で良いようにも思われます。
でも、それは、ちょっと違うのです。
上の図における『亜鉛濃度=30μg/Lに対応する50種』というのは、『P(種数|亜鉛濃度=30μg/L)』という文脈(=「亜鉛濃度が30μg/Lであるときの」)における種数の予測値であって、『P(種数|do(「亜鉛濃度を30μg/L))』という文脈(=「亜鉛濃度を30μg/Lに変化させたときの」)における予測値とは、概念的に異なるのです。
ここで、『P(種数|亜鉛濃度=30μg/L)』の文脈と『P(種数|do(亜鉛濃度=30μg/L))』の文脈が一致するかどうか、つまり「亜鉛濃度=30μg/Lに変化させたとき」と「亜鉛濃度が30μg/Lであるとき」を区別する必要があるかどうかは、データの背後にある因果関係(因果グラフの構造)に依存する話になります。
いくつかの因果関係(因果グラフ)を想定して考えてみましょう。ここでは仮想例として、種数に影響を与える主要な潜在的要因として「亜鉛濃度」と「有機汚濁(指標として便宜的にBOD値を使用)」の2要因を考慮した、以下の因果グラフを想定してみます:
尚、今回想定したこれらの因果関係は共通して、「亜鉛濃度」と「BOD値」の間には未知の共通要因による擬似相関の関係があることを含意しています*11。
ではまず、(a)のケースの因果構造の場合を検討してみます。このような因果関係が背後にある場合には「亜鉛濃度=30μg/Lに変化させたとき」にも、種数は変化しないことが予測されます*12。つまり、P(種数|do(亜鉛濃度=30μg/L))=P(種数)であるわけです。また、当然P(種数|do(亜鉛濃度=30μg/L)) ≠ P(種数|亜鉛濃度=30μg/L)となります。
では、上の(b)のケースではどうでしょうか。このような因果関係が背後にある場合には、亜鉛濃度のみが種数にダイレクトに効いているので、「亜鉛濃度=30μg/Lに変化させたとき」と「亜鉛濃度が30μg/Lであるとき」を区別する必要がなくなります。つまり、P(種数|do(亜鉛濃度=30μg/L)) = P(種数|亜鉛濃度=30μg/L)と解釈してもよいことになります。
(c)のケースではどうでしょうか。このような因果関係が背後にある場合には、亜鉛濃度とBODの両方が種数にダイレクトに効いているので、「亜鉛濃度=30μg/Lに変化させたとき」と「亜鉛濃度が30μg/Lであるとき」はイコールではありません*13。つまり、P(種数|do(亜鉛濃度=30μg/L)) ≠ P(種数|亜鉛濃度=30μg/L)となります。この場合には、重回帰においてBODを説明変数として加えることなどによって交絡を調整し亜鉛のみのダイレクトな影響を抽出することにより、P(種数|do(亜鉛濃度=30μg/L)) = P(種数|亜鉛濃度=30μg/L)として解釈できるようになります。
環境基準値のように潜在的に「介入」を前提とするものに関する議論においては、(本来考慮すべき『P(種数|do(亜鉛濃度=30μg/L))』ではなく)、単なる条件付き確率である『P(種数|亜鉛濃度=30μg/L)』の文脈でデータを解釈してしまうと、全く的はずれな対策に繋がってしまう危険性があります。
(例えば、データの背後にある因果関係が上図の(a)であった場合には、Fig1のような図だけを見て亜鉛の環境基準値を30μg/Lに設定してしまうことは、単なるリソースの無駄遣いであるとともに、本来の原因を見誤ることによりかえって問題の解決を妨げてしまうことに繋がります)
以上のような仮想例を振り返ると、最初に挙げたこの図:
のようなデータの解釈において、『P(種数|亜鉛濃度=30μg/L)』という概念と『P(種数|do(亜鉛濃度=30μg/L))』という概念をきちんと区別することの本質的な意義が分かるのではないかと思います。
【補足:本節に述べてきたことは「交絡をちゃんと考えなさいよ」ということだけじゃんといえばまあその通りです。交絡について考える際に、"do演算子"と"因果グラフ"という強力ツールを用いると明示的だし統一的だしいろいろ捗るぜ、というところが寧ろキモであるとご理解いただけましたら幸いです。】
2つの似て非なる「予測」:2009年度の生態学会における私は論点を捉え損ねていた
以上のような話をもとに過去を振り返ると、「過去の私は論点を捉え損ねていたなあ」と思うことがあります。
例えば、2009年度の生態学会で私は
「生態リスク」にどう向き合うのか?:データ解析からリスク解析へ
というシンポジウムを主催しました。
このシンポジウムでは、
「生態リスク」を扱う上では、生態学において日常的に行われている「データから仮説を検証する」「データにより支持される仮説を選択する」という行為から一方進んで、「予測」の文脈を取り込まなければならないのではないだろうか
という問題意識をテーマとしていた(つもり)でした。
しかし、今そのシンポジウムを振り返ると、そのテーマとすべき「予測」というものにも実は区別すべき2つの本質的に異なる文脈があったのではないだろうかと思っています。
それは端的に言えば、介入を伴わない場合における「予測」と、介入を伴う場合の「予測」の2つです。
前者の意味での「予測」は、「n個のgivenのデータから、n+1個めの未来のデータを予測する」というような文脈に相当します。例えばAICは、このような文脈における「予測能力」にもとづきモデルの評価(データによる仮説の選択)を行ないます。このような文脈における「予測」では、必ずしもデータの背後の因果構造が正しく考慮されていることが重要であるとは限りません。
一方、後者の意味での「予測」は、do演算子が扱うような「介入の結果に対して何が起こるかを予測する」という文脈に相当します。このような文脈における「予測」では、データの背後の因果構造が正しく考慮されていることが重要となります。
今思えば、私が上記のシンポジウムで注目すべきだった、「生態学」から「生態リスク学」へと歩を進める際のより本質的な論点とは、むしろ後者の「予測」の問題であったように思われます*14。
なぜ、私は2009年度の生態学会において論点を捉え損なったのでしょうか?
今やその理由は明確です。
それは、その頃の私はまだ「do演算子を知らなかった」から、なのです。
書き疲れたのでざっくりと:今回のまとめ
長くなったので、さいごに今回の記事の要点をざっくりとまとめてみます:
- Judea Pearlは偉い人(らしい)
- 確率論の言語には因果関係を表す記号がない
- do演算子を導入するといろいろ捗る
- 介入を伴わない場合における「予測」と、介入を伴う場合の「予測」は区別したほうがいいかも
というかんじになりますかね。
はい。
というわけで、今回も大変に長いエントリーを最後までお読みいただきありがとうございました。。。(というか本当にいつも長尺エントリーで大変申し訳ありません。。。反省します。。。)
【*次回以降もしばらく統計的因果推論ネタのエントリーがつづきます。次回は「反事実モデル」、次々回は「バックドア基準」について書いていきたいと思います。】
.
*1:[http://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%BC%E3%83%93%E3%83%B3%E3%83%BB%E3%83%9F%E3%83%B3%E3%82%B9%E3%82%AD%E3%83%BC:title=マービン・ミンスキー]的なかんじですかね
*2:何度か頭から通読しようとしたが挫折した
*3:ちょっとググッてみたらその解説とほぼ同じものがここから手に入るっぽい→[http://ccc.inaoep.mx/~esucar/Clases-ia/Adicional/ijcai-notes.pdf:title=PDF]
*4:宮川さんの本における「セットオペレーター」
*5:運命、みたいな
*6:*注:Pearl本第1版は2000年出版なので、2011年の今現在はちょっと状況が違うかも
*7:あともちろんPearlさんはFisherのランダム化実験については特筆しておりますよ
*8:Box-Cox変換のひと
*9:このような表現にみられるような、常に「人間とはどういう思考機械か」という考察をベースに論を進めていくところがPearl本のゾクゾクと面白いところだと思います
*10:ちなみに実際にも、亜鉛の水生生物への毒性は比較的強いことが知られており、河川生物への生態リスクが最も懸念される物質のひとつであると考えられています
*11:実際のデータでも亜鉛濃度とBOD値の間にはこのような偽相関がしばしばみられます
*13:「30μg/Lであったとき」にはBODとの偽相関経由での影響も入っている
*14:生態学者って一般的に交絡というものに対してものすごく無頓着なのだけれど、リスクの問題は交絡の考慮がやっぱりどうしても重要となってくるため