応用哲学会での発表『リスク分析と予防原則』のスライドをweb公開しました
オッス!オラ人身御供!林岳彦です。ブログではお久しぶりです。4/1より弊所内での管理部門への出向から帰ってきました!半年間のあいだ研究から引き離されておりましたので、浦島太郎状態というか、浦見魔太郎状態というか、こ・の・う・ら・み・・・とメラメラしておるところです。
さて。
研究への復帰直後にいきなり応用哲学会@名古屋大でのワークショップ『予防原則のメジャーアップデート』の中で発表させていただく機会がありました。(関係者のみなさま大変ありがとうございました)
以下にそのスライドをweb公開いたしました。応用哲学会での発表のため、科学哲学やSTS的な論点への繋がりを強く意識した内容となっています。こんなバランスの発表が成り立つのは応用哲学会くらいじゃないかなーと思います。かなりマニアックな内容とはなっておりますが、好事家の方々におかれましてはぜひ一見いただければ幸いです。
今後とも何卒よろしくお願いいたします。
内生性・交絡 revisited:説明変数と残差と誤差の相関をのんびり眺めるの巻
こんにちは。林岳彦です。ggplot2を使いこなすシャレオツな若い人を見ると自分の老いを感じる今日このごろです。
さて。
今回は、「説明変数と誤差項に相関がある」とはどういうことか、について見ていきたいと思います。
経済学系の統計解析の本を読んでいると「内生性」という概念がよく出てきます(経済学系でない分野においては、「交絡」と呼ばれるものに実務上はおおむね対応する概念と言えます)。
この「内生性」の説明としては、例えば:
計量経済モデルにおいて、説明変数と誤差項との間に相関があるときに、内生性(endogeneity)があるという。このとき、説明変数は内生的(endogenous)であることになる。説明変数が内生的であれば、推定されたパラメータは一致推定量ではなくなり、推定値は統計学的に信頼されるものとはなりえない。
のように説明されます(内生性 - Wikipediaより引用*1。強調は引用者による)。
お分かりになりましたでしょうか。
うーん。このように「説明変数と誤差項との間に相関があるとき」とペロっと言われても、それはいったい内実としてどういうことなのでしょうか? ここはちょっと直感的には掴みづらいところがあります。説明変数と誤差項との相関。やれやれ。村上春樹の小説の主人公ならばそう呟くところかと思われます*2。
少なくとも、私も長らくのあいだ「頭では概念として理解はできるけども、なんか腑に落ちた気がしないんだよなあ!」みたいなかんじでモヤモヤを抱えてきました。(一般的な傾向として、「交絡」の概念の方により親しんでいる人々にとっては「内生性」の概念はにわかに掴みづらいところがあると思います)
なので今回、「説明変数と誤差項に相関がある」という現象について、具体的な数値例と数式と散布図などを行き来しながら一度のんびりと眺めてみようと思いました。
以下はその観察記録です。あと、私はRの作図用パッケージであるggplot2を余り使ったことがなかったのでその練習も兼ねております。なんか、ggplot2を使う若者が、眩しかったので。
いつもながらめちゃくちゃ長い記事となっておりますが誠に申し訳ありません(一二塁間を鋭く転がるゴロに対して菊池涼介が飛びつくイメージで土下座)。もしご興味のある方はあくまでごゆるりとご参照いただければと思います。
注:以下の内容では特に何か新奇なことが書いてあるわけではありませんが、例えばもしあなたが「内生性があるとき、説明変数と残差の間には相関はありますか?」と聞かれて即答できなかったり、即答できたとしてもその話と「誤差」と「残差」の関係についてモヤモヤが残るようであれば、以下の内容を読むことで何らかの気付きがあるかもしれません。
まずそもそも:回帰分析の「誤差項」って何だろう?
まずちょっと誤差項について「そもそも」的な話をしておきたいと思います。「説明変数と誤差項の間に相関がある」という話が直感的に飲み込みにくい理由のひとつは、「誤差」という語の一般的なイメージにあるように思います。
分野と文脈にもよるかもしれませんが、一般に「誤差」という語は「偶然により生じるバラツキ」という意味内容で用いられることが多いかと思います*3。
この「誤差=偶然によるバラツキ」のイメージだと、「説明変数」と「誤差項」が相関する、と言われてもちょっと直感的には分かりにくいかもしれません。「偶然」なのに「相関」する、というのはちょっとモヤモヤしますよね。偶然と相関は別ではない、むしろその一部として存在するのだ。村上春(以下略)
実際には、回帰分析における「誤差項」というのは、「偶然によるバラツキ」というよりも「回帰モデル内に含まれていない要因に起因するバラツキ」を表すものと言えます。そんなこと知ってるよ!という方も多いかと思いますが、以下では具体的な数値例をもとに、「説明変数と誤差項に相関がある」という現象がどう生じるかをのんびりと眺めていきます。
数値例で考える:手始めとして内生性がないケースについて
用いるデータの説明()
1000人についてのデータを考えます。が興味のある目的変数で、が興味のある処理変数とします。本記事では基本的に、「の介入(因果)効果」の推定を目的として考えていきます。また、と以外の要因(いわゆる共変量)として変数を考えます。個人がもつ各変数の値は、それぞれ と表記します()。
具体的なデータの数値は以下になります(最初の10人分だけ示します):
## Y X A B C D E ## 1 117.74459 20.10945 50 17.515979 7.328762 5.274418 3.979622 ## 2 101.26213 33.28693 50 4.512647 4.144204 4.805702 4.270394 ## 3 104.58084 14.87584 50 14.527577 4.943072 5.706772 6.026504 ## 4 132.57335 28.21539 50 20.072712 7.622195 6.590343 3.644171 ## 5 119.69218 29.66154 50 14.602998 5.948058 4.876588 7.042868 ## 6 131.00739 42.60949 50 13.724355 6.274851 4.674336 3.872113 ## 7 135.54970 34.28185 50 18.904753 9.574860 3.883485 5.684925 ## 8 123.86800 23.30899 50 21.037063 3.268138 5.216748 4.176329 ## 9 117.50302 38.75542 50 10.460737 3.967846 3.858279 6.439549 ## 10 96.44099 21.65111 50 7.983961 4.685668 4.136289 4.839025
ここで、このデータのは以下の式1によって完全に決定論的に作成されています。この式1は、本来は"神のみぞ知る"ような「の生成メカニズム」を表しているもの*4と考えてください。
(式1)
つまりこのデータにおいては、個体のレベルで見たときのの値は「の関数()」として完全に決定論的に定まっています(上記の式1にはいわゆる”誤差項”がないことに注意してください)*5。
ここで、 YOSHIKIとXの関係からForever Love 与式1の関係から「が1増加すると、が1増加する関係にある」ことが分かります。つまり、「の介入効果(=を1単位増加させたときのの増加量)」の"真の値"は、与式1から"1"となっています。
データ全体の概観をつかむために、の相関行列を図示してみます*6:
この図の中の右上部は相関係数(注:と間違えやすいので注意)を、左下部は散布図を表しています。
このデータの特徴をまとめると以下のようになります:
- データ内に含まれる変数はと
- はサンプル内で常にであり、このデータにおいては分散を持たない変数となっている
- との間には相関が見られる(YOSHIKI 1から生成されているので*7)
- とは相関していない(注:これらのデータはRで作成しましたが、実際にプログラムコードの中でもは互いに独立に生成されています)
では、このような特徴をもつデータを用いて内生性と残差と誤差の関係についてのんびり眺めていきましょう。
のんびり回帰分析してみよう(まずは内生性がない場合)
上記の数値表のデータにおいて、とのみが観察可能である(=の値は解析者には分からない)状況を想定し、でを単回帰してみます。回帰直線のプロットは以下のようになります:
ここでをで単回帰してみます。Rでの結果の要約は以下のようになります:
lm.res <- lm(Y ~ X) summary(lm.res) ## ## Call: ## lm(formula = Y ~ X) ## ## Residuals: ## Min 1Q Median 3Q Max ## -31.4218 -7.2333 0.0179 7.3268 31.5752 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 89.85904 0.66858 134.40 <2e-16 *** ## X 1.00607 0.02355 42.72 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 10.71 on 998 degrees of freedom ## Multiple R-squared: 0.6465, Adjusted R-squared: 0.6461 ## F-statistic: 1825 on 1 and 998 DF, p-value: < 2.2e-16
ひとつづつ要素を確認してみましょう。
上記の"X"の行の”Estimate”がの回帰係数となります。回帰係数の推定値は「1.00607」となっています。回帰係数の正解の値はYOSHIKI 1より「1」なので、かなり高い精度で推定されているといえます。また、R2乗値(”R-squared”)は0.65、回帰分析の定数項(”Intercept”) は89.86になっています。
では、この回帰分析の「部屋」と「Yシャツ」と「私」「残差」と「誤差」と「」のあいだに相関があるか見ていきましょう。
「残差」との相関をみてみよう(内生性がない場合)
まず説明変数であると「残差」の相関を見てみます。残差とは「実際のデータであるの値」と「得られた回帰モデルによるの予測値」の差分となります。図で表すと、実際のデータと回帰直線との縦側のズレが回帰分析における「残差」になります(下図のイメージ)。
数値的なイメージを掴むため、の予測値("Y_predict"), 残差("Y_residual")の数値も以下に示しておきます(最初の10データ):
## Y X Y_predict Y_residual ## 1 117.74459 20.109453 110.09058 7.654013021 ## 2 101.26213 33.286928 123.34805 -22.085923505 ## 3 104.58084 14.875842 104.82519 -0.244353842 ## 4 132.57335 28.215392 118.24573 14.327627596 ## 5 119.69218 29.661538 119.70065 -0.008472325 ## 6 131.00739 42.609494 132.72721 -1.719821246 ## 7 135.54970 34.281848 124.34901 11.200687438 ## 8 123.86800 23.308985 113.30953 10.558463946 ## 9 117.50302 38.755424 128.84975 -11.346723721 ## 10 96.44099 21.651110 111.64159 -15.200605708
上記の「残差」の値の1000人分の分布も描いてみます。0の周りにおおむね対称にバラついていることが分かります。
では「」と「残差」の相関を見てみましょう。どん!
はい。安心してください。相関はありません。
これはある意味当たり前の話になります。なぜなら、そもそもこのような回帰分析では回帰直線の傾きが「説明変数以外で説明できないバラツキ」との相関がゼロになる(直交する)ように選ばれているからです(以下の参考図のイメージ/必要に応じて拡大などしていただければ幸いです)。
*この辺りの回帰分析と残差にまつわるエトセトラについては以下のhoxo_mさんの記事の説明がとてもステキだと思いますので適宜絶賛ご参照いただければと思います:
「誤差」と「」の相関をみてみよう(内生性がない場合)
では次は、「誤差」と「」の相関をみていきましょう。
はてと。実は、困ったことに、通常はデータから「回帰分析の誤差項」そのものは算出できません。
・参考:BellCurveさんの良記事→ 27-3. 予測値と残差 | 統計学の時間 | 統計WEB
しかし、今回はチート的状況として「真のメカニズムモデル」が以下の式1により与えられています。
(式1)
そこで本記事では、式1の変形から「のうちでは決まらない部分」を「誤差」と定義することにより:
の式により「誤差」の値を算出していきます。
イメージを掴むため、の予測値("Y_predict"), 残差("Y_residual"), 誤差("Y_error_byEq1")の数値表を以下に示します(最初の10データ):
## Y X Y_predict Y_residual Y_error_byEq1 ## 1 117.74459 20.109453 110.09058 7.654013021 97.63514 ## 2 101.26213 33.286928 123.34805 -22.085923505 67.97520 ## 3 104.58084 14.875842 104.82519 -0.244353842 89.70500 ## 4 132.57335 28.215392 118.24573 14.327627596 104.35796 ## 5 119.69218 29.661538 119.70065 -0.008472325 90.03064 ## 6 131.00739 42.609494 132.72721 -1.719821246 88.39790 ## 7 135.54970 34.281848 124.34901 11.200687438 101.26785 ## 8 123.86800 23.308985 113.30953 10.558463946 100.55901 ## 9 117.50302 38.755424 128.84975 -11.346723721 78.74760 ## 10 96.44099 21.651110 111.64159 -15.200605708 74.78988
上記の「誤差」の値の1000人分の分布は以下のようになります。90くらいの値を平均として対称に分布していることが分かります。
さて。ではこれらの誤差とのあいだに相関はあるでしょうか? 誤差との散布図を見てみましょう!
はい。相関はありません。つまりこの例では「内生性が」ない、ということになります。
ここで、「残差」と「誤差」の分布を重ねて見てみましょう。(改めて考えてみると、なかなか、「誤差の分布」と「残差の分布」を重ねてみることは無いのではないでしょうか。私も今回はじめてこのような作業をしてみました!)
両者の分布は形状は似ていますが、平均の位置がズレています。この平均のズレの理由は、回帰分析の中では「以外の要因からの影響」のうち「平均に関する影響」は定数項(切片)として切り分けて扱われているためです。
上記の誤差について「誤差 - 回帰モデルの切片の値」として定数項分の補正を行うと、両者の分布の中心はゼロとなり、分布全体が以下のようにほぼ一致します:
はい。もしかしたら、このように切片のぶんだけ補正すれば「誤差」と「残差」の分布が重なるのは当たり前のようにも思う方も多いかもしれません*8。
しかしながら、後で見るように、「誤差」と「残差」の分布は(切片の補正を行っても)内生性がある場合には一般に重なりません。
少し脱線:(回帰分析の文脈における)「誤差」について改めておさらいをしてみる
さてさて。ここで少し「誤差」について、改めておさらいしてみたいと思います。(お急ぎの方はここの部分は読み飛ばしていただいても構いません)
今回の例では、私たちは与式1により「の値はの値から決定論的に決まっている」ことを知っています。つまり、個体レベルで見るとからの寄与は「偶然」のものではありません。しかしながら、集団全体のレベルで回帰したときには、の寄与としてカウントされないのバラツキからの寄与は、「誤差項」の中で表現されることになります。このように、回帰分析における「誤差項」というのは「偶然によるバラツキ」というよりも、「回帰モデル内で表現されていない要因に起因するバラツキ」と呼ぶべきものになっています。
ここでもう少し粘っこく考えてみると、1段階さらに遡って、の値がもし「偶然により生じている」のであれば、それならばやはり「誤差項」は「偶然のバラツキ」と呼びうるのではないか、と考えることも可能かもしれません。この論理をどんどん敷衍していくと、そもそも「偶然とは何か」という哲学的な範疇の問いになってきます。本記事はひとまず、(人間は認知能力に限界があるので「偶然」という概念を都合よく用いたがるだけで)我々が現実の中で思考の対象とするようなマクロな現象は実際にはおおむね決定論的に定まっていると考えても差し支えないだろう、という立場で書いています。(とは言え、本記事の話の枠組みにおいては、例えば上記のの値のバラツキは本当は「神がサイコロを振ったことによる”真の偶然”によるバラツキなのだ!」と考えても、議論の大枠は全く変わりません)
ついでに、ちょっと本筋の話とは外れますが、また少し違う方向からも「誤差」について眺めてみましょう。誤差は「モデルに含まれていない要因に起因するもの」とは言っても、の単回帰モデル内に含まれていないからの寄与の全てが(の単回帰モデルの)「誤差項」の中で表現されているわけでもありません。集団の中でバラついていない部分による寄与は、「定数項」の中で表現されています。
例えば、今回の例では要因には集団内でバラツキがないため、要因のの値への寄与は定数項の中でのみ表現されます。ここで注意してほしいのは、実際には、の値が構成される上で、要因Aは諸要因の中でもっとも寄与が大きい要因であることです。以下に式1ともともとのデータの数値表(最初の10データ)を再掲します:
式1は以下で:
(式1)
データの数値は以下です:
## Y X A B C D E ## 1 117.74459 20.10945 50 17.515979 7.328762 5.274418 3.979622 ## 2 101.26213 33.28693 50 4.512647 4.144204 4.805702 4.270394 ## 3 104.58084 14.87584 50 14.527577 4.943072 5.706772 6.026504 ## 4 132.57335 28.21539 50 20.072712 7.622195 6.590343 3.644171 ## 5 119.69218 29.66154 50 14.602998 5.948058 4.876588 7.042868 ## 6 131.00739 42.60949 50 13.724355 6.274851 4.674336 3.872113 ## 7 135.54970 34.28185 50 18.904753 9.574860 3.883485 5.684925 ## 8 123.86800 23.30899 50 21.037063 3.268138 5.216748 4.176329 ## 9 117.50302 38.75542 50 10.460737 3.967846 3.858279 6.439549 ## 10 96.44099 21.65111 50 7.983961 4.685668 4.136289 4.839025
ここで、の平均は105ですが、の値のほぼ半分となる50の分は要因の寄与によるものです。しかしながら、ここでもし要因を回帰モデルに加えても、「要因はに全く影響を及ぼさないもの」として解釈されます(集団内でバラツキがないので!)。
これは「メカニズム的な観点から見たへの寄与(の値の半分はによる)」と「統計的に得られた回帰モデルの観点から見たへの寄与(はによらない)」は全く異なることを意味しています。(唐突に感じられるかもしれませんが、集団遺伝学的観点から見える「遺伝子の寄与」と、遺伝子ノックアウト法の観点から見える「遺伝子の寄与」が全く異なることと同型の論理です)
この違いを理解しておくことは、「統計的に得られた回帰モデル」の一般化可能性/外的妥当性を考える上で非常に重要なことです。もし、の値が異なったり、のバラツキが大きい集団に対して、上の数値例から得られた回帰式を用いて予測を行うと、全く的外れな予測をもたらす可能性があります。例えば、の集団に対して上の数値例から得られた回帰式で予測を行なっても当然、の値は50の分だけズレてきます。また、に大幅なバラツキのある集団に対して予測を行なっても、そのの予測能力はのバラツキの分だけ大幅に低下することになります。さらに、が不均一な集団において、とに交互作用があったり、との間にバックドアパス(参照)があったりする場合には、への介入効果の推定にもズレが生じてきます。このように、均一性の高い集団に対する統計解析から得られたモデルからの結果を、その特性が異なる・不均一である集団に適応するときにはかなりの慎重さ("humility")が必要となります。
とても当たり前のことを言っているようですが、いざデータから回帰式を得てしまうと、それがあたかも普遍法則であるかのように捉えてしまいがちなのは人のロマンシング・サガとも言えるので、みんなで気をつけていきましょう。
いよいよ本題:「内生性がある場合」を眺めてみよう!
さてさてさてさて。少し脱線しました。本題に戻りましょう。いよいよ「内生性がある」場合を見ていきます。
今までの例とほぼ同じですが、その生成モデルにおいてが他の変数との関数である点だけ異なる場合を考えていきます。
(式1)
このように、(モデルを構造方程式で表現したときに)自体が他の変数の関数として左辺に現れているとき、を内生変数と呼ぶようです(この辺りの計量経済系の用語の定義にはあまり自信ないですが。参考:内生変数@コトバンク)。
を生成する式は今までの例と同一の与式1です。大事なことなので繰り返しますが、目的変数であるを生成する式は今までと同一の与式1です。今までの例と同様に、与式1より、の介入効果(=を1単位増加させたときのの増加量)は「1」となります。後でまた触れますが、与式1の中で「もと同じくの関数」となっていることがここのキモです。
データ全体の概観を掴むために相関行列を見てみましょう:
このデータにおける変数の値は最初の例のデータと同じ値を用いています。一方、の値は「がとの関数」であるためとから新たに(決定論的に)生成された値になっており、(最初の例とは異なり)と, との間に相関がみられています。
では、とのみが観察可能である状況を想定し、でを単回帰してみます。回帰直線のプロットは以下のようになります:
はい。今回の例でもの生成モデルとなる与式1は同じであるため、予想通り強い比例関係が見られています。
Rでの分析結果の要約は以下のようになります:
lm.res2 <- lm(Y2 ~ X2) summary(lm.res2) Call: lm(formula = Y2 ~ X2) Residuals: Min 1Q Median 3Q Max -12.9827 -2.8054 -0.1508 2.9443 14.4078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 46.70968 0.68146 68.54 <2e-16 *** X2 2.74318 0.02649 103.57 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.537 on 998 degrees of freedom Multiple R-squared: 0.9149, Adjusted R-squared: 0.9148 F-statistic: 1.073e+04 on 1 and 998 DF, p-value: < 2.2e-16
得られているR2乗値("R-squared")は「0.91」であり、一般論として適合したモデルはデータにおけるバラツキをかなり良く説明していると言えます。その一方で、の介入効果の「真の値」は与式1より「1」であるにもかかわらず、得られたの回帰係数("Estimate")は「2.74」とその真の介入効果からは2.7倍もかさ増しされた数値になっています。(ちなみに回帰係数の推定値の標準誤差自体は0.025と小さく数値上の推定精度はかなり高くなっています)
このように、回帰モデル全体としての適合が良好であることと、その回帰モデルが介入効果の適切な推定値をもたらすことは本質的には別の問題となります。げに恐ろしきは内生性(a.k.a. 交絡)です。【20170928追記:サンプルサイズと一致性と内生性と多重共線性の関係については次のスライドの108枚目からをご参照いただければと思います→『バックドア基準の入門』@統数研研究集会】
さて。いよいよ、このケースで「恋しさ」と「せつなさ」と「心強さ」「残差」と「誤差」と「」のあいだに相関があるかどうかを見てみましょう!
まず、と「残差」のプロットを以下に示します:
「と残差」の間には相関はありません。(先ほども述べましたが、回帰直線の傾きは残差との間に相関がないように選ばれているので、そもそもそういうものなのです)
一方、与式1から算出した「誤差」と、の相関を見てみましょう。
内生性、かくにん! 「と誤差」のプロットには明瞭な相関がみられました。
さて。この相関はなぜ生じているのでしょうか? ここでの「と誤差」の相関は、以下のように両者がともに「の関数」となっていることにより生じています。(以下にXの生成モデルと誤差の算出式を再掲)
このように、説明変数と誤差が同じ要因(この例では)により影響を受けるとき*9に両者の間には相関が生じます。
少し別の言い方をすると、(データ生成メカニズムの観点から見たときに)「誤差項に影響を与える要因の集合()」と「に与える要因の集合()」に重複する部分があることによって内生性が生じている、とも言えます(下図/必要に応じて拡大などしていただければ幸いです)。【この状況については、Directed Acyclic Graph (DAG)(参照:KRSK_phsさんによる良解説記事)の観点から言うと「との間に閉じていないバックドアパスがある」、共変量のバランシングの観点から言うと「を決定する要因であるの値がの値に対してバランシングしていない」、潜在反応モデルとExchangabilityの観点からは「の値に対しての潜在反応が非独立である」ことにより内生性が生じている、という説明の仕方がそれぞれできます。みなさま方におかれましては適宜お好みの説明の仕方をご採用いただければと思います!】
と「誤差」が同じものを含んでいるならば、その間に相関が生じるのは直感的にも理解しやすいですよね。このように、「誤差」をモデルに含まれていない諸変数の関数として(敢えて決定論的な枠組みを用いて)眺めてみると、少し「説明変数と誤差の相関」というものが直感的に捉えやすくなるかもしれません。
さて。では、この状況のときの「残差」と「誤差」の分布を眺めてみましょう。
以前にみた内生性がないケースでは「残差」と「誤差」の分布はほぼ重なっていました。しかし、今回の内生性があるケースにおいては、回帰分析からの「残差(ピンク)」と与式1から求めた「誤差(水色)」の分布は以下のようにズレています:
上記の誤差について「誤差 - 回帰モデルの切片の値」として定数項分の補正を行ってみると以下の図のようになります。
前回の内生性がないケースとは異なり、今回の内生性があるケースでは、残差と誤差の分布は重なりません。
また、ここで両者の分散に着目してみましょう。「残差」の分布のほうが分散が小さくなっています。これは、がその生成メカニズムにおいての成分を含んでいるため、本来は与式1内のの直接的な影響により生じている「のバラツキ」の一部が、によって”過剰”に説明されている*10ために生じています。そのによる”過剰説明”によって、生成メカニズムから算出されている「誤差」の分散よりも、統計学的に得られた回帰モデルにおける「残差」の分散の方が小さくなっているわけです。
平均の違いに着目しても同じような「による過剰説明」が生じています。本来は与式1内のによって決まる「平均の差」の一部が、によっても「過剰に説明」されてしまっているため、回帰モデルからの定数項(切片分)で補正を行っても、両者の分布の平均も依然ズレるいます。
以上のことはつまり、内生性がないときには統計的に得られた回帰モデルからの残差は「真の誤差(モデル内の説明変数以外による影響の総体)」を反映していると期待できるものの、その一方で、内生性があるときにはそれらの「残差」と「真の誤差」もズレるということになります。
問い:“内生変数”があれば必ず内生性が生じる?
さて。ここで素朴な疑問を考えてみましょう。が「内生変数」である場合には、必ず「内生性」が生じるのでしょうか?
試しに「がのみの関数」である場合を見ていきましょう。この場合にもは「内生変数」と言えます*11。
(式1)
を生成する式は今までの例と同一の与式1です。今回ははのみの関数となっており、を生成する式にはEは含まれていないことに注意してください。
このデータに対してYをXで回帰した回帰分析は以下のようになります。
lm.res3 <- lm(Y3 ~ X3) summary(lm.res3) ## ## Call: ## lm(formula = Y3 ~ X3) ## ## Residuals: ## Min 1Q Median 3Q Max ## -31.356 -7.180 0.016 7.369 31.698 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 89.68687 1.73408 51.72 <2e-16 *** ## X3 1.00638 0.03383 29.75 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 10.71 on 998 degrees of freedom ## Multiple R-squared: 0.47, Adjusted R-squared: 0.4695 ## F-statistic: 885 on 1 and 998 DF, p-value: < 2.2e-16
の回帰係数(”Estimate”)の正解は予式1より「1」ですが、とサンプルサイズも十分にあるので「1.00638」と高い精度で推定されています。つまり、は内生変数ですが、今回のケースではバイアスは生じていません。
と「誤差」の相関をみてみましょう。
この場合には、と「誤差」の間には相関はありません。(ここには示しませんが、最初の「内生性がないケース」と同様に、「残差」と平均値を補正した「誤差」の分布も重なります)
上記の例が示すように、ややこしいですが、内生性が生じる上では「が内生変数であること(システムを表す方程式の内部で決定されていること)」自体が本質的な要因であるわけではありません*12。
より本質的なのは、「」と「誤差項」を決定する要因の中に共通ものがあるかどうかということになるわけです(下図/必要に応じて拡大などしていただければ幸いです)*13。
(やっと)まとめ
はい。今回もとても長くなってしまいました。いちおう所感をまとめておきます:
- 内生性がないときは「誤差」と「残差」の分布は基本的に重なる(と期待できる)が*14、内生性があるときは「誤差」と「残差」は一般に重ならない*15
- 回帰モデルが値の観点から「良く適合している」ということと、そのモデルの説明変数の回帰係数がその「因果効果の良い推定値」かどうかは、本質的には別の問題である
- 説明変数が内生性をもつとき、「の回帰係数」と「への介入効果の推定値」はズレる(バイアスが生じる)
- 説明変数が内生変数であっても、内生性をもつとは限らない。やれやれ。村(略)
- 「誤差」をモデルに含まれていない諸要因の「関数」として敢えて決定論的な枠組みから眺めてみると、少し「説明変数と誤差の相関」というものが身近になるかも
-
- けっきょくggplot2の使い方がやっぱり今ひとつ腑に落ちず自分の老いを感じた
- ggplot2を使いこなすシャレオツな若者を見ると自分の老いを感じる
- tidyverseを使いこなすシャレオツな若者を見ると自分の老いを感じる
- Stanを使いこなすシャレオツな若者を見ると自分の老いを感じる
- 最近までPythonの読みを「フィソン」だと思っていたことは絶対に秘密
- あと環ROYのことも「かんろい」だと思ってた
はい。
本当は、これからさらに:
- では、説明変数と残差に相関が出るのはどういうときなのか
- 「説明変数と誤差の相関」と「共変量のバランシング」の関係
などについてものんびり眺めてみようと思っていたのですが、もう力尽きたので、ここに書くのはやめておきます。
というわけで今回の記事は終わりです。
今回も非常に長い記事をここまでお読みいただいた方、大変ありがとうございました!
#わたくしごとですが、来る10月1日から、弊研究所内でのルーティン的異動により所内企画部に半年間の時限付き出向となるため、暫くのあいだブログやSNSの稼働率はさらに大幅に低下すると思いますがどもすみません。
#RStudioで書いた今回の「Rコード+解説メモ」をこちらに置いておきますので、お好きな方は適宜どうぞ!→ html, Rmd
【参考情報など】
横浜国立大の黒木学先生による、因果関係を関数的関係の連なりとして捉える「構造的因果モデル」の教科書がさいきん出ました。いわゆるPearlの体系とRubinの体系が理論的にはシームレスであることも解説されています*16。この内容が日本語で読めることの幸せたるや!激オススメです!
- 作者: 黒木学
- 出版社/メーカー: 共立出版
- 発売日: 2017/08/24
- メディア: 単行本
- この商品を含むブログを見る
黒木先生の本はちょとまだ難しいかな・・・という方は、こちらをどうぞ。わたくしと黒木先生の共著によるバックドア基準の入門的解説原稿も収録されています。
- 作者: 岩波データサイエンス刊行委員会
- 出版社/メーカー: 岩波書店
- 発売日: 2016/06/10
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (4件) を見る
「因果効果を調べたい目的変数の挙動はそもそもどの共変量のどのような関数でありうるか」を粘り強く考える習慣や技量*17を身につけると、内生性に対する考察だけではなく、交互作用の理解や一般化可能性に関する考察もより明晰にできるようになっていきます。因果推論における交互作用の解説については、以下のKRSK_phsさんの記事が激オススメです。とても大事なことが分かりやすく説明されています!
krsk-phs.hatenablog.com
おまけ:たまきろい*18。ことの次第。ことばの因果的連関。凄い。
環ROY / ことの次第
*1:個人的には、ここの「信頼されるものとはなりえない」という全称的-ゼロイチ的な記述は強すぎるように感じます。一致推定量からのズレも実務上は「程度問題」だったりするので(構造的因果モデル的に言うとバックドアパスにも太いのと細いのがあるっていう話)、感度分析でもしてもう少し粘り強く「どれくらい信頼できるか」を考える方向を尊重してほしいように思ったりするところです
*2:わたくしの中での村上春樹のイメージは『世界の終わりとハードボイルド・ワンダーランド』くらいで止まっておりますが申し訳ありません
*3:誤差そのものは「差」を表す表現ですが、個々のデータにおける「誤差」ではなくデータ全体に含まれる「差の総体」を議論の対象とする場合には、「誤差」は実質的に「バラツキ」を指すと考えられるため、ここでは「偶然により生じるバラツキ」という表現を用いています
*4:つまり、単なる等式ではなく、生成メカニズムの表現としての構造方程式である
*5:ここで式1をYの式ではなくの式として記述しているのは、誤差項がなく完全に決定論的に定まっていることを強調することを意図しました。ここはどう書くかちょっと迷いました
*6:この相関行列の作成に関しては http://statmodeling.hatenablog.com/entry/scatter-plot-matrix のコードを参考にさせていただきました。多謝でございます
*7:式1の上ではYはDの関数でもあるのですが、データ上では明瞭には見えてないですね。Dの分散が小さいからかもしれません
*8:あるいは、回帰分析において両者の分布は「ぜひとも一致しておいてくれないと本当は色々と困るという事情により一致するのが当たり前だという期待が広く共有されているかもしれません」と記述した方がもしかしたら事態の正確な記述に近いのかもしれません
*9:構造的因果モデル的にいうとXとYの間のバックドアパスが閉じていないとき
*10:介入効果の推定の観点からは”過剰”という意味です。単なる予測モデルとしての観点からは特に問題はありません
*11:以前にも述べましたが、本稿では(モデルを構造方程式で表現したときに)自体が他の変数の関数となっているとき、を内生変数と呼びます
*12:というか内生変数の議論における「システム」の境界って誰が決めるんですかね?構造的因果モデルの観点から見ると、d分離によって議論すべき「システム」の境界はDAGの構造から理論的に定まりうるのだけれど
*13:構造的因果モデルの用語を用いてより正確に述べると「閉じていないバックドアパスがあるかどうか」
*14:「誤差」の定義にもよるかもしれない
*15:偶然に重なることはあるかもだけど
*16:潜在反応モデルの構造的因果モデルの枠組みによる定式化の解説など
*17:変数間の関数関係のグラフィカルな表現がDAGとなります
*18:今年のつくばロックフェスでライブを観ました。ものすごくかっこよかった!!!
統数研での講演『バックドア基準入門』をアプします
おひさしぶりです。林岳彦です。夜、自宅で少しだけお酒を飲みたいときがありますよね。少しだけリラックスしたいけど酔っ払いたくはないみたいなときです。そんなとき、アサヒスーパードライの小さな135ml缶はたいへんありがたい存在です。しかし、この135ml缶の欠点は、お酒が少ししか飲めないことです。アズスーンアズ飲むや否やですぐ終わってしまうのです。実はもう飲む前に既に終わっているのではないかと思うほどです。ケンシロウに秘孔でも突かれたのかと、夜中に台所でぼくはきみ(135ml缶)に話しかけたくなります。「スーパードライの135ml缶」とはそんな存在です。
最近、その欠点を克服する方法を発見したのでお知らせします。スーパードライ135mlとポッカのキレートレモン155mlを1:1くらいで混ぜながらちびちび飲みます。これだとすぐ終わらずに飲めます。ビール感も消えてしまわず、爽やかなレモン感もあり、美味しいです。シャンパングラスなんかに入れるとうっすらとオシャレ感すらあったりします。ささやかだけど、逃げるは恥だが、役に立つライフハックです。
さて。
先月の2月17日に統計数理研究所の以下の研究集会『因果推論の基礎』で「バックドア基準」についての講演をする機会がありました。
リスク解析戦略研究センター研究集会「因果推論の基礎」 | 統計数理研究所
とくに秘匿すべき内容ではありませんので、このたび本講演のスライドをスライドシェアにアップロードいたしました。お好きな方はぜひご笑覧いただければと思います。
www.slideshare.net
本スライドの96枚目以降でも述べておりますが、「量的な解析を生業としつつも、質的なcausal modelも常に/すでに頭の中でぐるぐるしているような研究者の方」などには特にオススメかなと考えております。
また、今週の3月15日(水)に生態学会@早稲田大学の自由集会(企画者: 粕谷英一さん@九大 & 久保拓弥さん@北大)において、『生態学者のための統計的因果推論入門』という発表をいたします。
以下に煽りプレビューを置いておきましたので、生態学会員などで、ご興味のある方はこちらも適宜ご笑覧いただければと思います。
www.slideshare.net
それでは、研究者のおのおの方におかれましては、抜かりなくフェスシーズンをお送りいただければと思います!
takehiko-i-hayashi.hatenablog.com
研究者ではないおのおの方におかれましても、抜かりなく美酒でもお飲みいただければと思います。スーパードライ135ml×ポッカのキレートレモン155ml、オススメです。
良い春を。
キクマルがタナキクマルに進化したような改訂版:『増補改訂版:伝わるデザインの基本』レビュー
こんにちは。林岳彦です。大昔にまだいたいけなカープ少年だったとき、よく分からぬまま村上龍の『走れ!タカハシ』を読んでしまいました。そしてそのオトナ(エロ)の世界になんだかショックを受けました。そんな大昔のことなども思い出しつつ、”龍”なんだからドラゴンズのことでも書いてりゃいいだろうが、と今さら龍に突っ込んだりしています。そして夜な夜な赤ワインを飲んでカンブリア宮殿に向かって乾杯しています。ラブ&ピース&カープ。そんな25年ぶりの優勝です。
さて。
少し前の話になりますが、球界の夜の盗塁王生態学会の気鋭の若手としても知られる千葉大学のタカハシ佑磨さんから、先々月の8月5日に発売された『増補改訂版:伝わるデザインの基本』というご著書をご恵贈いただきました。
伝わるデザインの基本 増補改訂版 よい資料を作るためのレイアウトのルール
- 作者: 高橋佑磨,片山なつ
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/05
- メディア: 大型本
- この商品を含むブログを見る
せっかく頂いたということもあり、また、初版ももともと名著だったのですが、この増補改訂版においては、2012年(新人王)→2016年(最多勝)の野村祐輔のようにその輝きがさらに増しておりましたので、本ブログでも研究hacksの一環としてご紹介&オススメしようと思いました。
そもそもどういう本なのか
一言でいうと、この本は「デザイナーではない普通のビジネスマンや学生や研究者の人のためのデザインの本」になるかと思います。
別の言い方をすると、「ふだんの業務の中で見やすく理解しやすい資料をつくるためのデザインTips本」ともいえます。「特別な機会 a.k.a OMOTENASHIのためのアート的な美しいデザインTips」の本ではなく、あくまで「伝わるデザインの基本」についての本です。
どのような本なのかを把握する上では、以下のリンクから本書の初版に対するアマゾンレビューを見ていただくのが良いかと思います:
伝わるデザインの基本 よい資料を作るためのレイアウトのルール
- 作者: 高橋佑磨,片山なつ
- 出版社/メーカー: 技術評論社
- 発売日: 2014/08/14
- メディア: Kindle版
- この商品を含むブログ (3件) を見る
なんと・・・総数で55件のレビューがありながら星の平均がほぼ5に近いという、広島ファンのシュールストロム在米スカウトに対する評価に匹敵するほどのすごい高評価になっています。この評価ぶりにはなんというか正直とても妬ましく羨ましく感じるくらいです。こんちくしょうこのリア充タカハシめとても素晴らしいですね!
この本の良いところ
「デザイン本」としてのこの本の良いところは、あくまで「ふつうのビジネスマンや学生や研究者」の目線で書かれている点にあると思います。
たとえば、今まで出版されてきた本職のデザイナーによるデザイン本は「良いデザインのカタログ」的な本が多かったように思います。
一方、この『伝わるデザイン』では、とても日常的なPowerpointによるプレゼンスライド資料やWordでの報告資料のような「あるある」な形式が中心に扱われています。フォントの選び方やレイアウトの基本構造などなどについて、「悪い例」→「良い例」のデザイン改善Tipsもたくさん紹介されており、日々の業務の中でとても役に立つ内容になっています。
また、実際にデザイン改善Tipsに従って資料を修正するときの「WordやPowerpoint(やKeynote)での修正の仕方」が、懇切丁寧に説明されているのもこの本のとても良いところです。
わたくしもMS Office系のソフトの操作方法は「だいたい知っている」つもりでしたが、この本を読んで知らなかった(あるいは薄々知っていたけど面倒くさくて使わなかった)多くの便利ワザを日常的に使いこなせるようになり、効率的に資料を作成できるようになりました。ありがたや。
このような「MS Office系ソフトの操作方法」の丁寧な説明が充実しているのは、著者らが本職のデザイナーではないからなんだろなと思われます。(おそらく本職のデザイナーはWordやPowerpointを日々重用したりしてないですもんね)
さて。著者らが本職のデザイナーではない(著者らの本職は生態学者)ということで、先発で絶好調の高橋健をリリーフに回す達川カープ末期のような独善的かつ場当たり的なHow toが紹介されていたらどうしよう・・・とご心配される方もいるかもしれません。でもその心配はご無用です。他のデザイン論系の類書と比較してみても奇矯なことが書いてあるわけではありません。
著者らはプロの研究者らしく、基本となる先行研究をきちんと踏まえた上で、(プロのデザイナーではない)普通の人が陥りがちな問題点とその改善点について丁寧にまとめてくれています。その点は2016年の絶対的クローザーたる中崎翔太に対するような安心感をもって接していただいて良いかと思います。
今回の増補改訂版では何が変わったのか
さて。先々月の8月6日に出た今回の「増補改訂版」の話をしましょう。
結論から言うと、初版の『伝わるデザイン』もまるで「キクマルみたいに素晴らしい」ものでした。そしてそして。今回の増補改訂版はさらに「タナキクマルみたいに素晴らしい」です。鈴木誠也に言わせれば「最高」です。
具体的には何が変わったかと言うと、まずは、分量が増強されています。総ページ数を見ても前版173ページ→増補改訂版237ページと増えております。一方、分量は増えているのにもかかわらず、価格の方は税抜きで初版2180円→増補改訂版1980円と逆に安くなっています。掟破りの逆サソリです。これはまるで年俸20億円のオファーを蹴って4億円でカープに戻ってきた黒田博樹のような男気と言えるでしょう。
また内容も単に量が増えただけではなく、個々の解説もさらに深化しつつかつより丁寧なものになっており、技術的なTipsもさらに充実したものになっています(例えば、MS Office系のソフトで画像の背景の除去ができるとか、知らなかった)。フォント事情などもより最近の状況に対応した記述になっており、キクマルがタナキクマルになったと思ったら安部もなかなかいいじゃないですかと思わせるようなさらに隙のない充実した内容になっています。
その他の改善点として、内部のデザインがけっこう変わりました。ちょっと意外なことですが、今振り返ると、前版の『伝わるデザイン』は本文の地の文のフォントが細すぎるなど、少しデザイン的に不格好なところがありました(弘法も筆の誤りもしくは、前田智徳も7割は凡退する的なかんじですね)。今回の増補改訂版では内部のデザインも全体的に見直されており、さらに見やすく&分かりやすくなっています。移籍前はチャンスで引っ掛けてゲッツーが多かった新井さんが、帰ってきたらけっこう器用に右方向に打ちよるわい、みたいな円熟味を感じるところです。
まとめ
以上の内容を簡単にまとめます:
『増補改訂版:伝わるデザイン』は神ってる
はい。
ジョンソン!
というわけで、25年ぶりの優勝に沸き立つカープファンの方も、そうでない方も、社会人の方も、学生のかたも、研究者の方も、この機会に本書のご購入を検討されるのをオススメいたします。
伝わるデザインの基本 増補改訂版 よい資料を作るためのレイアウトのルール
- 作者: 高橋佑磨,片山なつ
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/05
- メディア: 大型本
- この商品を含むブログを見る
きっと、今後のプレゼンスライド資料や報告書のレベルがまた一段上がるのではないかと思います。
追記:この本の元となった『伝わるデザイン』のweb版が以下にありますので、購入をご検討される方はまずは以下をご覧いただくと良いかもしれません
#あとは、わたくしといたしましては、風間フロンターレがタイトルをとってくれればもう思い残すことは何もありません(祈)
参考文献
↓本当に面白かった!カープファンならぜひ一度読んで欲しいです。名将ノムケンのことをもっと好きになること請け合い!
- 作者: 野村謙二郎
- 出版社/メーカー: ベストセラーズ
- 発売日: 2015/02/14
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
- 作者: 山本浩二,野村謙二郎
- 出版社/メーカー: KADOKAWA
- 発売日: 2016/09/24
- メディア: 単行本
- この商品を含むブログを見る
- 作者: 新井貴浩
- 出版社/メーカー: KADOKAWA
- 発売日: 2016/03/16
- メディア: 単行本
- この商品を含むブログ (2件) を見る
- 作者: 前田智徳,石井琢朗,鈴川卓也
- 出版社/メーカー: ベストセラーズ
- 発売日: 2014/06/26
- メディア: 単行本
- この商品を含むブログを見る
岩波DS3の林・黒木原稿の補遺記事(予告)
岩波データサイエンスvol3に統計的因果推論に関する原稿を寄稿しました(林岳彦・黒木学『相関と因果と丸と矢印のはなし:はじめてのバックドア基準』)。
構造的因果グラフという難敵を相手に、「読者にとっての分かりやすさ」と「学問的正確さ」を極限まで両立させることを目指して、もう本当に精根尽き果てるまで頑張って執筆しました。この原稿が現在のわれわれの精一杯です。
(時間の関係で最終版の原稿がチェックできなかったこともあり、大きな誤植がないことを祈るばかりです)
#本原稿の執筆の際にはRcpp関係で有名なteuderさんに貴重なコメントをいただきましたのでこの場を借りて御礼申し上げます。
- 作者: 岩波データサイエンス刊行委員会
- 出版社/メーカー: 岩波書店
- 発売日: 2016/06/10
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
本当は岩波DS3本体の発売と同時に以下の補遺の方も発表できればよかったのですが、色々と立て込んでおり、これから五月雨式に発表していければと思っております。(すみません...)
補遺記事の予定:
(1)表現としての因果モデルについて
(2)Morgan and Winship (2015)の表紙の図の解説
(3)その他いろいろ
参考予定図書:
Causal Models: How People Think about the World and Its Alternatives
- 作者: Steven Sloman
- 出版社/メーカー: Oxford University Press
- 発売日: 2005/07/02
- メディア: Kindle版
- この商品を含むブログを見る
- 作者: Stephen L. Morgan,Christopher Winship
- 出版社/メーカー: Cambridge University Press
- 発売日: 2014/11/17
- メディア: ペーパーバック
- この商品を含むブログ (1件) を見る
確率概念について説明する(第3-2-2回):「あらゆる奇跡はありふれる」問題
こんにちは。林岳彦です。いくらあなたが槇原敬之の大ファンで、どんなときもどんなときも僕は僕らしくありたいと思っていても、浮気がばれたときに「もう恋なんてしないなんて〜 いわないよぜったい〜」と歌ったら殴られると思うからそれだけはやめた方がよいと思います。TPOを大切に。
さて。
前回は「到達可能性(のフレーミング)」という観点から、「可能性と確率のあいだ」について考えてみました。
今回は、「あらゆる奇跡はありふれる」という観点から、「可能性と確率のあいだ」について考えてみたいと思います。
(今回もとても長くなってしまいました。いつもながら本当にすみません。。。)
大久保のゴール:「あらゆる奇跡はありふれる」問題
では、今回のテーマである「あらゆる奇跡はありふれる」問題について見ていきましょう。
この問題は、現実の具体的なできごとの「ありえなさ」を真正面から計算していくととんでもなく低い数値になりがち、というものです。
具体的な例で考えてみましょう。
まずは、2014年の3月28日金曜日に等々力陸上競技場で行われた、Jリーグ2014年第5節の川崎フロンターレvs名古屋グランパスの試合におけるフロンターレの大久保嘉人による68分のゴールを採り上げてみます(わたくしフロンターレサポなので)*1。
こちらがそのゴールの動画となります:
2014年3月28日 川崎 VS 名古屋 68分大久保嘉人ゴール - YouTube
この最終的な大久保のゴールに至るまでは実に28本のパスが繋がっています。パスが繋がった選手を追っていくと:
田中→小林→森谷→中村→大久保→森谷→中村→田中→森谷→中村→森谷→中村→森谷→ジェシ→井川→谷口→レナト→谷口→大島→ジェシ→田中→ジェシ→大島→小林→中村→森谷→小林→中村→大久保→ゴール
となっています。
さて。では、このような「28本のパスが繋がってゴールに至る」という過程においてありうる可能世界の数を単純に計算してみましょう。
自分のチームのプレーヤーは11人ですから、最初のボールを持っているのは11人のうちの誰かになります。そして、誰かがボールを持っているときにそのパスの潜在的な受け手は10人です。つまり、1つのパスの受け手に関して10通りの可能世界があることになります。上記の最終的な大久保のゴールに至るまでには28本のパスが繋がっています。すなわちそのような10通りの可能世界の分岐(パス)が28回繰り返されていることになり、その可能世界の数は11✕(10の28乗)になります。
11✕10の28乗というと、11✕10000000000000000000000000000です。
上記の動画において私たちが見るものは、11✕10000000000000000000000000000通りの可能世界の中の一つが実現したものといえます。
嗚呼。 穣。 まさに奇跡的なゴール、というべきなのかもしれません。
さらに試合全体でのパス数について考えてみましょう。この試合全体でのフロンターレの成功したパス数は563回でした*2。この「563本のパスが成功する」という事態においてありうる可能世界の数は、同様に計算をすると「11✕(10の563乗)」になります*3。
つまり、この試合で等々力競技場の観衆が見たものは、成功したパスにおける組み合わせだけを考えても
11✕10000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000
0000000000000000000通り
の可能世界の中のうちの一つが実現したものといえるわけです。
全宇宙の素粒子の数が10の80乗ということらしいですので*4、「11✕(10の563乗)」というのはもはや、大沢誉志幸ならずとも途方に暮れてしまうような大きな数と言えるでしょう。
これはやはり奇跡的な試合、というべきなのかもしれません。
しかしながら、より本質的に考えてみましょう。
そもそも、「あらゆる奇跡はありふれる」 のがこの世界の性質なのかもしれません。
『あの日 あの時 あの場所で きみに会えなかったら』:奇跡、奇跡、また奇跡
「あらゆる奇跡はありふれる」のがこの世界の性質とは、どういうことでしょうか。
小田和正の『ラブストーリーは突然に』という1991年のヒット曲をヒントに考えてみたいと思います。この歌は『東京ラブストーリー』という、「また夢になるといけねえ」というサゲのセリフで有名なドラマの主題歌だったので覚えている方も多いのではないでしょうか。
この歌の有名なサビの部分のフレーズは:
あの日あの時あの場所で きみに会えなかったら
僕等は いつまでも 見知らぬ二人のまま
というものです。
自分の恋人と「あの日あの時あの場所で出逢えた」のは奇跡なんだ、と感じさせるステキな歌詞といえます。確かに、恋人との出会いというものは奇跡なのかもしれません。
しかし、太陽のHatsugen Komachi Angelとも言うべき本ブログのソフィストケイテッドな読者さま方におかれましては:
- 「あの日あの時あの場所」とか言い出したら大体何のときでも当てはまるし
- あの日あの時あの場所できみに会えなくても、別の日の別の時の別の場所で別の「きみ」に会えたんでしょうねえ
- 数年後に「見知らぬ二人のままだったほうが良かった」ってなることもあるよね
と心の片隅で思ってしまうのかもしれません。
まあ実際に、多くの「奇跡」というものはそういうものかもしれません。
特定のケースについて事後的に取り上げれば「奇跡的な話」と思えても、全体的に眺めれば単に「ありふれた話」に過ぎないんじゃないの、いうことはよくあります。
以下では、数値的に分かりやすい例として、「誕生日のパラドックス」について見ていきます。
『今日も誰かの誕生日』:ありふれた奇跡に関する計算
キリンジに『今日も誰かの誕生日』という曲があります。これも本当にいい曲です。
ほとんど出オチのような話ですが、「ある任意の日が自分の誕生日である確率」は1/365と高くはありません*5。しかし、もっと全体的に眺めれば「今日も誰かの誕生日」なわけです。上の動画で堀込泰行が唄い上げるように、ハッピーバースデー・トゥー・エブリワン!なわけです。
では。「ある任意の日が自分の誕生日である確率」の話は単純すぎるので、次は「n人がいる部屋に同じ誕生日のペアがいる確率」について考えてみましょう。
これはいわゆる「誕生日のパラドックス」として知られている問題です(誕生日のパラドックス - Wikipedia)。
まずは手始めの前フリとして、少し単純なバージョンとして、「n人がいる部屋に自分と同じ誕生日の人がいる確率」を計算してみたいと思います。
まず、1人目の誕生日が自分と異なる確率は(364/365)です。その確率を1から引くと、1人目と誕生日が同じ確率「1-(364/365)」になります。さらに2人目の誕生日も自分と異なる確率は (364/365)X(364/365)となるなので、2人のうちのいずれかと誕生日が同じ確率は [1- ]になります。これをn人まで拡張していくと、「n人がいる部屋に自分と同じ誕生日の人がいる確率」の答えは:
になります。グラフに描くと:
となります。この「n人がいる部屋に自分と同じ誕生日のペアがいる確率」が0.5を超えるのは、n=253のときになります*6。
では今度は、「n人がいる部屋に同じ誕生日のペアがいる確率」について考えていきましょう。
計算のやり方として、1から「n人がいる部屋で全員の誕生日が異なる確率」を引く方法で考えていきます。まず、1人目と2人目の誕生日が異なる確率は(364/365)になります。さらに3人目も異なる確率は(364/365)X(363/365)、4人目も異なる確率は(364/365)X(363/365)X(362/365)になります。これをn人まで拡張すると、その答えは ]になります(Wikipediaでの説明はこちら)。これを1から引いたもの、すなわち:
]
が「n人がいる部屋に同じ誕生日のペアがいる確率」になります。グラフに描くと:
となります。
ここで、「n人がいる部屋に同じ誕生日のペアがいる確率」が0.5を超えるのは、n=23人のときになります。一方、「自分の誕生日と同じ人がいる確率」が0.5を超えるのはn=253人でした。「自分の誕生日と同じ」というのと「誰かの誕生日が同じ」では、起こりやすさがかなり異なることが分かるかと思います。
この「誕生日問題」が示すのは、事後的に特定の組み合わせのみを採り上げると「起こりにくそう」なことでも、そのような組み合わせが起こりうる元となる組み合わせの数の多さを考えれば、単に「ありふれうる」ということです。
このような事例は、実際の統計解析の現場においても「多重比較の罠」などの形で少なからず出会うものです。「多重比較の罠」について興味がある方は、ぜひ以下の過去記事もご参照いただければと思います:
『Happy Birthday, Mr. President』:意志と確率
もちろん、上記のような「組み合わせの数」の問題だけが、「起こりそうもないこと」がよく起こる原因というわけではありません。
たとえば、申し遅れましたが、本日(この記事の公開日)10月25日はわたくしの誕生日です。これはものすごい偶然・・・ということではもちろんありません。これは意図的に本記事の公開日をわたくしの誕生日にしたからです。
このように、人間の意志が絡むと「起こりそうにないこと」は、いともたやすく「起こりうる」ことに変化します。
ここで、誕生日ネタということで、マリリン・モンローがジョン・F・ケネディに捧げた『Happy Birthday, Mr. President』を聴いてみましょう。いろいろな意味でドキがムネムネする映像です:
マリリン・モンローがジョン・F・ケネディにお誕生日の歌を唄うなんて「あまりに奇跡的」なシーンのようにも思います。しかし、それは寧ろ、さまざまな人間の意志が絡んだ「あまりに必然的」なシーンであったのかもしれません。
ハッピーバースデー・ミスタープレジデント - Wikipedia
「人間の意志が絡むと、起こりそうにないこともたやすく起こる」ということを頭の中に留めておくことは、実務的にも重要なことです。
リスク評価の結果としては「リスクは非常に小さい」としていたことがらが、人間の意志/悪意の介在によりたやすく起きてしまうことがあります。
そんなときになって私たちは、必要だったのは実は「リスク評価」ではなく「セキュリティ評価」だった、と気づくことになるわけです。
そして、気づいたときにはもう取り返しがつかないことも多いのです。
『じこはおこるさ』:後知恵バイアス
ひとつひとつの事象に着目すれば起こる確率が低いものでも、それが起こりうる機会がものすごくたくさんあるのならば、それは「いつかはどこかでは起こる」のだと言えます。
例えば、この世界で1日に走っている車の数、電車の数を考えれば、「いつか・どこかで」交通事故が起きるのは必然的とも言えるでしょう。
しかし、「いつか・どこかで」事故は起きるというのは予測できても、「いつ・どこで」起きるのかを予測することは非常に難しいものです。そこには本当に非常に大きなギャップがあるのです。
そして実は、このギャップというのは、何かが実際に起きてしまった後では非常に見えにくくなるものです。人間というものは、何かが起きてしまったときは、後から「それは予想可能だった」と思いがちなのです(後知恵バイアス)。この「後知恵バイアス」は、しばしば社会の中でアンフェアな帰結を生むことがあります。
前節で、「人間の意図が絡むと、起こりそうにないこともたやすく起こる」と書きました。しかし、この逆の「起こりそうにないことが起きた時には、人間の意志(悪意、あるいは度し難い過失)が絡んでいる」というのは必ずしも正しくありません。
しかしながら、世間ではこの「起こりそうにないことが起きた時には、人間の意志(悪意、あるいは度し難い過失)が絡んでいるに違いない」という決め付けがしばしば起きてしまいます(例えば、福島県立大野病院産科医逮捕事件 - Wikipedia)。
「起こりそうにない事故が起きた時に、そのときの担当者を吊るし上げてサンドバックにする」という"解決"策は、残念ながら、日本においてはしばしば目にするものです。そして、担当者をサンドバックにするときには、上述の「後知恵バイアス」が大活躍します。
「起こりそうにないことが起きた時には、人間の意志(悪意、あるいは度し難い過失)が絡んでいる」という考え方が正しいケースもあるのだとは、思います。しかし、特に病気・感染症・天変地異などの自然現象が絡むケースでは、「なにかが起こりうる潜在的な機会は実はものすごくたくさんある」ことも多く、たまたまそこに居合わせた担当者がベストエフォートをしていたとしても防ぎきれないケースも少なくないのです。
そのような場合には、担当者個人を吊るしあげてサンドバックにすることは、本当の解決にはならないばかりか、より本質的な構造的/組織的レベルでの重大な問題が不問とされることにより、未来の犠牲者を増やすことにも繋がりかねません。
もちろんあらゆる事故が起きないのが一番ではありますが、人間の為すことに「完璧」はなく、自然の為すことはあくまで気まぐれで、私たちが暮らすこの世界ではいつだって可笑しいほどのダイスが転がされつづけているのです。
事故はいつかどこかで起きるものです。もし事故が起きたときには、その「起こりそうになかったのに起きてしまった」ことについて、冷静さとフェアネスを大切にしながら、丹念に腑分けしていく必要があるのだと思います。
「可能性」と「確率」のあいだ:極小の面積をもつ可能世界群をどう足し算するのか
・・・とここまで書いてきて、あまり「可能性と確率のあいだ」の話をしていないことに気づきました。以下では、これまでの話を踏まえつつ「可能性と確率のあいだ」について書いていきたいと思います。
結論から言うと、「可能性」として「起こりそうもないこと」を取り扱うのは、比較的に簡単かもしれません。しかし、それを「確率」として取り扱うのは必ずしも簡単ではありません。
確率というものを「(規格化された)可能世界の面積」と捉える見方を過去記事で説明してきましたが、「非常に起こりそうもないこと=極小の面積を持つ可能世界」がものすごくたくさんある場合に、それらの面積を「どう足し合わせるうるのか」という問題は ーーー 少なくとも実務的には ーーー 非常にやっかいな問題となります。
特に、さまざまに異なる条件が積み重なって起こることがらについては、その非常に小さい"確率"の数値を決めること自体が難しくなります。さらに、どこまでの条件の重ねあわせの組み合わせまで考えるのかも難しい課題となります。
例えば、「これから100年以内にある特定の堤防Aが決壊する確率」というものを真正面から考えてみるとします。ここで、「決壊」という事象に影響を与えうる条件にはさまざまなものがあります。例えば、今後100年間で上流側のダムや堤防の管理がどうなっていくのか、人口や産業構造の変化に伴って流域の河川水の使用量がどうなっていくのか、あるいはその下支えとなる地方自治体の財政状況がどうなるのか、あるいは時空間的な降雨量が地球全体の気候変動に伴ってどう変化していくのか、などなどさまざまな「条件」があり、それらの条件の積み重ねの上での「可能性」を考える必要があります。
「これから100年以内にある特定の堤防Aが決壊する可能世界は少なくとも1つあります」というのは簡単です。しかし、その「これから100年以内にある特定の堤防Aが決壊する可能世界」が、どれだけの条件の組み合わせの数に基づく諸可能世界群のうちのどのくらいの面積を占めるのか(どのようにそれらの可能世界の面積群を足し合わせることができるのか)、そしてそもそもどこまでの条件の重ねあわせの組み合わせまで考えるべきなのか、というのは真正面から考えると途方もなく難しい問いになります。
「さまざまに異なる条件が積み重なることにより起きる」ことがらにおいて「そのような条件の積み重ねの場合の数がものすごく大きい」という場合には、「可能性」と「確率」の間に ーーー 少なくとも実務的には ーーー また一つの大きなギャップ(「可能性」を「確率」という概念の枠組みにはめ込むことが困難な状況)が広がっているわけです。
まとめ:この可能世界に/で祝杯を
はい。今回はかなり雑駁になってしまいましたが、最後に今回の内容をまとめてみます。
- 事後的に特定の組み合わせのみを採り上げると「起こりにくそう」なことでも、そのような組み合わせが起こりうる元となる組み合わせの数の多さを考えれば、単に「ありふれうる」
- 人間の意志が絡むと、起こりそうにないこともたやすく起こる
- その逆の「起こりそうにないことが起きた時には、人間の意志(悪意、あるいは度し難い過失)が絡んでいる」は必ずしも正しくない
- 後知恵バイアスで人を殴るのは止めよう
- 「さまざまに異なる条件が積み重なることにより起きる」ことがらにおいて「そのような条件の積み重ねの場合の数がものすごく大きい」という場合には、「可能性」を「確率」という概念の枠組みにはめ込むのは難しい
さて。
今回の記事では、古今東西の名曲をお供に「あらゆる奇跡はありふれる問題」について見てきました。
そんな今回の記事の締めの曲は、ceroの『Orphans』です。
あらゆる奇跡はありふれるのだと知りつつも、この名曲のように、私たちの可能世界において 「この世界」が有る/「この世界」に在る ことの奇跡を、cerebrateしてみるのも悪くはないのかもしれません。
#このシリーズの次回記事では、「そもそも確率は在るのか/唯<この世界>論」問題について書いていきたいと思います。
余談:オススメの参考文献
- 作者: デイヴィッド・J・ハンド,松井信彦
- 出版社/メーカー: 早川書房
- 発売日: 2015/08/21
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
- 作者: 三浦俊彦
- 出版社/メーカー: 青土社
- 発売日: 2007/12
- メディア: 単行本
- 購入: 1人 クリック: 57回
- この商品を含むブログ (27件) を見る
- 作者: 郡司篤晃
- 出版社/メーカー: 聖学院大学出版会
- 発売日: 2015/07/07
- メディア: 単行本
- この商品を含むブログ (1件) を見る
.
*1:試合記録はfootball labより
*2:パス数656✕パス成功率0.858
*3:まあ連続して成功しているわけではないので本当はちょっと違う計算式であるべきではありますが
*4:参照: https://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%A9%E3%83%8F%E3%83%A0%E6%95%B0
*5:めんどいので、うるう年のこととか、またそれぞれの日に誰かが生まれる確率における偏りとか、そういうのはとりあえず無視させてください
*6:参照:http://kah.s35.xrea.com/gameprob/drop.htm
*7:もし他の人が当時の血液製剤の担当者だった場合に、もっと事態は悪化していたという可能性も十分ありうるのではないか --- 少なくとも私には、実際の一連の担当者たちよりもこの案件についてより適切に対応できる自信はない
*8:あと未だに安部英医師が極悪人の類だと思っている人がいたらぜひ読んでみたほうが良い
8/6因果フェスのプレビュー:「系列Aと系列Bの関係は?」という問いに対する4つの素敵な解法について
こんにちは。林岳彦です。エ・レ・ファ・ン・ト・カ・シ・マ・シ(←滝川クリステル風に声に出して読みたい日本語)。
さて。
今回は8月6日に迫った日本生態学会関東地区会シンポジウム(a.k.a 因果フェス)についてのプレビューを書いてみたいと思います。
今回のシンポにおける問いを一言で言うと:「系列Aと系列Bはいかなる関係か?(*但し共変量および背景に関する情報は無いものとする*)」
統計的因果推論というと「介入効果/措置効果の推定」のことを思い浮かべる方も多いのかもしれませんが、そのテーマは昨年に扱いました。
で、今年については本質的には以下の問いが中心になると言えるのかなと思います:
「系列Aと系列Bはいかなる関係かについて答えよ(*但し共変量および背景に関する情報は無いものとする*)」
はい。
これはシンプルではありますが非常に奥の深い問いです。
今回のシンポでは、この問いに対する4つの素敵な解法が紹介されることになります。
それぞれの解法を簡単にプレビューしてみます:
解法1:LinGAMによる解法
午後の部の最初の講演者である大阪大学の清水昌平さんからは、LiNGAM (Linear Non-Gaussian Acyclic Model)という手法を用いて因果が「A→B」なのか「A←B」なのかはたまた「因果関係なし」なのかを識別する方法を中心にお話いただきます。
この手法においては、非ガウス型の誤差分布により生じる非対称性を利用して因果関係が推定されます*1。
*LiNGAMについての解説は以下でも見ることができますが、より詳しく知りたい方はぜひ本シンポにご来場いただければと思います。
- 構造方程式モデルによる因果探索と非ガウス性
- A→Bなのか、B→Aなのかをデータから見抜くことはできるだろうか?(LiNGAMのシミュレーションをしてみた) | ALBERT分析者ブログ「分析現場24時 そのデータの裏側に迫る!」
解法2:Grangerの因果性テストによる解法
午後の部の2番目の講演者であるリクルートコミュニケーションズの尾崎隆さんからは、Grangerの因果性テストという手法を用いて2つの時系列データA, Bの間の"因果関係"を識別する方法についてお話いただきます。この手法においては、時系列間での相互予測力における非対称性を利用して"因果関係"が推定されます*2。
(ここで"因果関係”とハイフン付きで書いているのは、ひとくちに”因果”といってもその意味内容には色々バリエーションがあるためです。その辺りの概念的な議論については午前の部において神戸大学の大塚さんに科学哲学の観点からご講義していただく予定です)
*Grangerの因果性テストの解説は以下でも見ることができますが、より詳しく知りたい方はぜひ本シンポにご来場いただければと思います。
解法3:Convergent cross mappingによる解法
午後の部の3番目の講演者である中央水産研究所の中山新一朗さんからは、Convergent cross mapping (CCM) という手法を用いて2つの時系列データA, Bの間の"因果関係"を識別する方法についてお話いただきます。この手法においては、非線形力学系に支配される原因系列と因果系列に含まれる情報量*3の非対称性を利用して"因果関係"が推定されます*4。
上述のGrangerの因果性テストがstochasticな系の解析に適しているのに対し*5、CCMは決定論的な系の解析に適したものになっています。CCMは2012年にGeorge SugiharaらがScience誌で発表した比較的新しい手法であり、時系列因果推論におけるhotでsexyな解析手法として急速に広まっているようです*6。
*Convergent cross mappingについての日本語の解説はまだ殆どないと思いますので、より詳しく知りたい方はぜひ本シンポにご来場いただければと思います。
解法4:MIC等による解法
最後の講演者であるALBERTの今井徹さんからは、AとBの間の非線形の関係性を捉える方法についてお話をいただきます。基本的には線形の世界において定義されているいわゆる「相関係数」というものを、非線形系も含めた一般的な概念としてどこまで拡張できる/推定できるのかというお話になるかと思います。
*今回のお話のプレビュー的なものを以下で見ることができますが、最新の話を含めてより詳しく知りたい方はぜひ本シンポにご来場いただければと思います。
はい。
というわけで以上4つの解法について簡単にプレビューをしてみました。
Grangerの因果テストとCCMは時系列データの解析手法であり、LiNGAMとMICは時系列に限らない一般のデータを対象とした解析手法となります。
ご興味のある方はこの機会を逃さずに是非ご来場いただければと思います。(非生態学会員の皆様もご遠慮せずにぜひどうぞ!)
では、8月6日の東大駒場キャンパス11号館におけるきっと素晴らしき可能世界にてお会いしましょう。
以下告知文の再掲:
当シンポの概要は以下のとおりです(生態学会関東地区会での正式告知はこちら):
生態学会関東地区会シンポジウム・公開シンポジウム
「非ガウス性/非線形性/非対称性からの因果推論手法:その使いどころ・原理・実装を学ぶ」
日時:2015年8月6日(木)10:20-17:50
会場:東京大学駒場キャンパス11号館 1101教室(11号館の地図・駒場へのアクセス)
主催:日本生態学会関東地区会 (link)
企画者:林岳彦(国立環境研究所環境リスク研究センター)、津田真樹(テクノスデータサイエンス・マーケティング株式会社)
参加費:無料(事前申し込み不要)
プログラム
(1) 10:20-10:30
林 岳彦(国立環境研究所環境リスク研究センター)
「進化生態学者のための前口上:フィッシャー、ライト、因果推論」
(2) 10:30-11:30
大塚 淳(神戸大学大学院人文学研究科)(大塚さんのHP)
「哲学から見た「因果」概念のレビュー」
[休憩1時間]
(3) 12:30-14:00
清水 昌平(大阪大学産業科学研究所)(清水さんのHP)
「非ガウス性を利用した因果構造探索」
(4) 14:00-14:45
尾崎 隆(株式会社リクルートコミュニケーションズ)(尾崎さんのHP)
「Granger因果による時系列データの因果推定」
[小休憩15分]
(5) 15:00-16:30
中山 新一朗(中央水産研究所)
「Convergent cross mapping の紹介と実践:決定論的力学系における因果関係推定」
(6) 16:30-17:15
今井 徹(ALBERT)(今井さんの記事)
「非線形の関係を捉える各種指標(MIC等)について」
(7) 17:15-17:50
コメンテーター:黒木学(統計数理研究所)、久保拓弥(北海道大学)、伊庭幸人(統計数理研究所)
コメンテーターからのコメント&全体討論
問い合わせ先
林岳彦(hayashi.takehikoあっとまーくnies.go.jp)
- 公開シンポジウムのため、どなたでもご聴講できます
- 事前申し込み不要です(万が一会場が満杯になりましたら大変申し訳ありません)
- 長丁場のため、個別のご講演のみのご聴講も歓迎いたします