Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

進化学者のためのMCMCのアナロジカルなアヤシイ解説/その1

今回は進化学者のためのマルコフ連鎖モンテカルロ方(MCMC)のアナロジカルな解説を書いてみたいと思います。いつもながら内容はアヤシイですが「B級グルメ的な解説」として捉えていただくとよい案配かと思います。

今回の一連の記事のポイントを先に書くと:

  • 尤度と適応度を敢えて混同する
  • 無性生物の進化シミュレーションとしてMCMCを解釈する

というところになります。

大胆に混同して考える:ベイズの定理と遺伝子頻度変化のアナロジー

さて、まずはベイズの定理から見ていきましょう。ベイズの定理は以下の形で書くことができます*1

p(a|E) = L(E|a)p(a) / Σ L(E|a)p(a)

ここでEはEvidence (=data)、aはパラメータを指します。 p(a)とp(E|a) はそれぞれパラメータの事前・事後分布、L(E|a)は与えられたEvidenceのもとでのパラメータの尤度となります。


さて、このベイズの定理ですが、進化学者ならおなじみの別の式に似ていませんか?

そう、一世代における対立遺伝子(allele)の頻度変化の式を考えてみましょう。式の形は以下のようになります。

p(a|E) = L(E|a)p(a) / Σ L(E|a)p(a)

ここではEはEnvironment、aはalleleを指すことにします。ここで、p(a)は対立遺伝子の世代tにおける頻度分布、p(a|E)は与えられたEnvironmentのもとでの世代t+1における対立遺伝子の頻度分布となります。L(E|a)は、与えられたEnvironmentのもとでの対立遺伝子の"likelihood of survival*2"、つまり適応度となります。

ここで上記二つの式を見比べてみましょう。式の形は同じです。それぞれの対応関係を見ていくと:

  • パラメータの事前分布=t世代における対立遺伝子の頻度分布
  • パラメータの事後分布=t+1世代における対立遺伝子の頻度分布
  • パラメータの尤度=対立遺伝子の適応度

となります。

以下、このアナロジー*3を全面的に敷衍しながら一通り考えていきます。

「事後分布を求める」=「一世代後の遺伝子頻度分布を描く」

以上のアナロジーに則り、「パラメータの事後分布を求めること」が「一世代後の対立遺伝子の頻度分布を求めること」とパラレルに捉えられることを見ていきたいと思います。

単純な場合として、パラメータaが2状態(a=0,a=1)をとるとしましょう。説明のための便宜として、被告Xが犯人(クロ)である場合をa=1、犯人でない(シロ)である場合をa=0と考えて、ベイズによる事前分布の更新を考えましょう。

事前分布としては、被告Xが疑われている類の犯罪のベースレイト(一般的な犯罪率)を考慮して、p(a=クロ)=0.001、p(a=シロ)=0.999として考えていきます。

ここでEvidenceとして「犯行現場に被告Xの指紋が残されていた」とします。もし被告Xがクロである場合に犯行現場に指紋が残されている確率(尤度)が0.8、シロである場合に指紋が残されている確率(尤度)が0.1である場合を式で表すと次のようになります。

L(E|a=クロ) = 0.8
L(E|a=シロ) = 0.1

ここで、ベイズの定理を用いてa=1となる事後確率p(a=1|E)を求めると

p(a=クロ|E) = L(E|a=クロ) p(a=クロ) / [ L(E|a=クロ) p(a=クロ) + L(E|a=シロ) p(a=シロ) ]
p(a=クロ|E) = 0.8*0.001 / ( 0.8*0.001 + 0.1*0.999)
p(a=クロ|E) = 0.0079

「クロ」の事前確率はp(a=クロ)=0.001でしたから、指紋というEvidenceにより「クロ」の確率がほぼ8倍に増加したことが分かります*4。因みに、上記の計算における分母の項は、全パラメータ範囲における事後分布の総和を表します。これで割っておかないと事後確率における全事象を足しても確率が1にならないというヘンなことになってしまいます。


では、以上の計算を念頭に置きながら、遺伝子頻度の変化も計算してみましょう。

単純な場合として、ある遺伝子座aには2つの対立遺伝子(a=0,a=1)があるとしましょう。説明のための便宜として、a=1のときに毛の色がクロ、a=0のときに毛の色がシロと考えて、適応度の違いによる遺伝子頻度変化を見ていきましょう。

世代tの遺伝子頻度としては、もともと全てがシロの1000個体の集団の中に一個体のクロの突然変異が現れた状況として、p(a=クロ)=0.001、p(a=シロ)=0.999とします。

ここでEnvironmentとして「なんだかよく分からないがクロのほうがすごく有利な環境」が与えられたとします*5。もし個体の毛の色がクロである場合の適応度が0.8、シロである場合の適応度0.1である場合を、式で表すと次のようになります。

L(E|a=クロ) = 0.8
L(E|a=シロ) = 0.1

ここで、a=1の次世代における遺伝子頻度p(a=1|E)を求めると

p(a=クロ|E) = L(E|a=クロ) p(a=クロ) / [ L(E|a=クロ) p(a=クロ) + L(E|a=シロ) p(a=シロ) ]
p(a=クロ|E) = 0.8*0.001 / ( 0.8*0.001 + 0.1*0.999)
p(a=クロ|E) = 0.0079

世代tではクロの頻度はp(a=クロ)=0.001でしたから、自然選択によりクロの頻度が一世代でほぼ8倍に増加したことが分かります*6。因みに、上記の計算における分母の項は、世代t+1における全遺伝子型頻度の総和を表します。これで割っておかないと1世代後に全ての遺伝子型頻度を足しても頻度が1にならないというヘンなことになってしまいます。


上記の計算例を見ると、ベイズの定理による計算が遺伝子の頻度変化の計算と同型であることがわかります。

まとめると:

  • ベイズの定理:パラメータの事前分布を尤度で重み付けすることでパラメータの事後分布を算出する
  • 遺伝子の頻度変化:世代tの遺伝子頻度分布を適応度で重み付けすることで世代t+1の遺伝子頻度を算出する

とアナロジカルに理解できそうです。


では、次回はこのアナロジーを踏まえて「そもそも何故MCMCが必要なのか:"次元の呪い"と"Holey adaptive landscape"」について書いていきます。


R.A. Fisher - The Life of a Scientist

R.A. Fisher - The Life of a Scientist

Fitness Landscapes and the Origin of Species (Monographs in Population Biology)

Fitness Landscapes and the Origin of Species (Monographs in Population Biology)

計算統計 2 マルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア 12)

計算統計 2 マルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア 12)

*1:離散パラメータの場合

*2:説明のための単純化として、繁殖による適応度の差は考えません

*3:あくまでアナロジーっす/アナロジーを踏み越えた意味論についてはとりあえず郡司ペギオ先生へとスルーパス希望

*4:でもベースレートが低いので絶対的な確率は余りあがらない

*5:ご都合主義的ですみません

*6:でももともと頻度が低いので絶対的な頻度は余りあがらない