識別/生成モデルの観点から見たRubin/Pearlの統計的因果推論（＊既に一定の予備知識のある方向け）

こんにちは。林岳彦です。ついに夏の統計的因果推論祭りが今週の木曜（7/10）に迫ってきました！

ちゃんと予定どおり開催されますので、参加申し込みをされたみなさま、台風に負けずにご来場いただければ幸いでございます。

さてさて。

この祭りに備えてさいきん改めて統計的因果推論の辺りを復習しているのですが、今回は自分のためのメモとして「識別/生成モデルの観点から見たRubin/Pearlの統計的因果推論」について書いてみたいと思います。（ひじょうにマニアックな内容になります）

（今回の記事は「統計的因果推論」に対して既に一定の予備知識がある読者を想定して書いていきますので、多くの方々には意味不明なものになるかもしれませんが大変申し訳ありません）

前置き：今回の元ネタとなる2つの記事の紹介

そもそものことを言いますと、今回の記事は以下の2つの記事にかなり直接的にインスパイアされて書かれたものです。なので、以下の記事をご一読の上でこの記事を読んだほうが、本記事が「そもそもどういうことを考えて書かれたのか」が分かりやすいかと思われます*1 。

(1) 伊庭幸人 (2006) ベイズ統計の流行の背後にあるもの. 電子情報通信学会技術研究報告. NC, ニューロコンピューティング 106(279), 61-66, 2006-10-04

(2) 社会学と因果推論 - 社会学者の研究メモ

(1)の伊庭さんの論文は、ベイズ統計の流行について「識別モデルと生成モデル」という観点から論じたものです*2。

(2)の筒井さんの記事は、社会学における「”因果効果”の推定（措置効果モデル系）」と「媒介による説明（回帰分析系）」を巡る変遷について書かれたものです。

今回の記事では、(1)の論文の「識別モデルと生成モデル」という観点から、(2)の記事の「因果効果の推定 vs 媒介による説明」というテーマについて書いていきます。

まずは用語説明：生成モデル・識別モデルとは？

では、まずは「識別モデル（discriminative model）」と「生成モデル（generative model）」という用語について見ていきます。

「識別／生成モデル」という語に関しては、人によってやや用法に幅があるようですが、まず上記の伊庭（2006）における説明を引用してみます（尚、本論文中では"discriminative model”の訳語として「判別モデル」という語が使われています）：

すでに述べたように、生成モデル（generative model）の考え方では、データの生成過程を条件付き確率で表現して、すべての変数の同時分布を書き下し、あとは必要に応じてベイズの公式を使う、というのが基本的な方針である。これに対して、与えられた目的に必要な条件付き確率のみを抜きだしてモデル化する考え方がある。ここでは、これを判別モデル（discriminative model）と呼ぶことにする。

この2つはあくまでもモデル化の上での相対的な方針であって「これが生成モデルで、これは判別モデル」といった絶対的な判断基準があるわけではない。むしろ、生成的なモデル化（generative modeling）と判別的なモデル化（discriminative modeling）のように「方針」としてとらえたほうがよいかもしれない。また、統計的情報処理の目的は「判別」ばかりではないので、一般には「判別的なモデル化」というより「部分的なモデル化」ということになる。

対立点をまとめると

生成モデル
全体をモデル化して、目的に応じてそれを変形して利用する。変形のためにベイズの公式を積極的に利用。
判別モデル
必要のない部分はモデル化しない。ベイズの公式はなるべく使わない。

ということになる。これは「ベイズ」と「非ベイズ」の古典的対立のエッセンスを抜き出したものにも見えるが、二項対立ではなく多数のモデルを整理する軸として提示されている点にちがいがあるし、内容的にもより幅が広くなっている。

はい。ニュアンスも伝わる良い説明だと思います（あやかりたいものです）。（当該論文が入手可能な方は面白いのでぜひ全文をご一読ください！）

一応もういちど地の文でもまとめると：

基本的には（広義には）、「先ずデータの生成プロセスをモデリングする」のを志向するのが「生成的なモデル化」、「生成プロセスをすっとばして所与のデータから直接問題を解く」のを志向するのが「判別的（識別的）なモデル化」という言い方ができそうです。

また、実践的には、前者は「生成プロセスを条件付き確率の形で記述→記述さえできれば後は変形してベイズで（さくっとあるいはゴリゴリと）モデルパラメータの計算」という形で、後者は「所与のデータ→基底関数を噛ます→直接問題を解く（問題を解く能力を最大化するようにパラメータを学習させる）」という形で解かれることが多いようです。

どちらのアプローチが良いかというのはケースバイケースとしか言いようがないとは思いますが、（識別／分類そのものが目的である場合の）一般論としては、データ生成プロセスが適切にモデル化可能な場合には生成モデルの方が良いものの、それ以外のケースでは識別モデルの方が良い、と言えるかと思います。

また、一般論として、生成モデルの難点の一つは『生成過程からのモデル化ということを徹底すると、いわば「世界全体」を生成する」ことになってしまい、大変なことになる』（上記の伊庭 2006 から引用）という面も挙げられるかもしれません。この世界の生成プロセスーーー因果の継起ーーーにはアプリオリなキリはないからです。

後述するように、Rubinの体系もPearlの体系も着眼点は違えど「生成過程からのモデル化」に基づく体系として考えることができます。以下では、それらの体系の中で「世界全体を生成せずに済ませる」ための手法として、「傾向スコア」や「バックドア基準」というものを捉えてみたいと思います。

識別／生成モデルの枠組みから見たRubinの統計的因果推論と傾向スコア

はい。では、識別／生成モデルの枠組みからRubinの統計的因果推論の枠組みを眺めてみたいと思います。

調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)

作者: 星野崇宏
出版社/メーカー: 岩波書店
発売日: 2009/07/29
メディア: 単行本
購入: 29人クリック: 285回
この商品を含むブログ (23件) を見る

上記の星野さんの本を読む限りでは、Rubinの枠組みは基本的には「潜在的結果変数／欠測値に関する生成モデル的アプローチ」に基づく体系であるように思われます。このアプローチの中で、「欠測データ」の生成プロセスや「反事実的データ（潜在的結果変数）」の生成プロセスを「条件付き確率の形」で全て記述することさえできれば、原理的には後はベイズで計算することができます。

しかしながら、それらの生成プロセスは多くの場合に複雑and/or不明瞭であり、条件付き確率の形で書き切ることは困難です。また、複雑なモデルになると、原理的にはベイズで計算できるとはいってもその実行はなかなか大変になってきます。

そこで、問題の単純化への「抜け道」として良く用いられているのが「傾向スコア」になります。

はい。で、この「傾向スコア」のアプローチは事実上、「条件の”割付"に関する部分を識別的モデル*3で置き換える」ものとして捉えることができるかと思います。

実際に、「傾向スコア」の有用性／汎用性というのは、一般論として「識別モデル」が持つ有用性／汎用性とほぼ重なる部分が多く、共変量と割付に関連する部分の「生成モデル」がよく分からない場合においてもその辺りは全部すっとばしてロバストな推定をもたらしてくれたりするわけです。

（一方、実務上で少し困るところは「傾向スコア算出のための良い（実用に足る）”識別モデル"が得られるかどうかは実際にデータを喰わせて”学習"させてみないと分からない」ところかもしれません。「適切な生成モデルが構築できるか否か」という見通しの方は事前知識から割りと立ちやすい気もするのですが、「良い"識別モデル"が得られるか否か」というのは、実際にやってみないと事前には見通しが立たない面が大きいように思います。これはつまり、例えば、競争的研究資金の申請時などに、「これからデータを集めて、傾向スコアで分析やります！」とまるっと書いてしまうと多少リスキーな面があるということです）

識別／生成モデルの枠組みから見たPearlの統計的因果推論とバックドア基準

さて。次は、Pearlの統計的因果推論の枠組みを眺めてみたいと思います。

統計的因果推論 -モデル・推論・推測-

作者: Judea Pearl,黒木学
出版社/メーカー: 共立出版
発売日: 2009/02/24
メディア: 単行本
購入: 6人クリック: 231回
この商品を含むブログ (25件) を見る

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

作者: 宮川雅巳
出版社/メーカー: 朝倉書店
発売日: 2004/04
メディア: 単行本
購入: 6人クリック: 67回
この商品を含むブログ (23件) を見る

上記の本を読む限りでは、Pearlの統計的因果推論の体系が常用するところの非巡回有向グラフは正に「データ生成プロセスの図像化」みたいなところがありますので、Pearlの体系はモロに「生成モデル的」であると言えます。

で、「あまりに生成モデル的」であるPearlの体系において、それでも「世界全体を生成せずに済ませる」ことを可能にしているのが、「バックドア基準」であると言えるかもしれません。因果効果／措置効果の推定のためには「生成モデルのどの部分までを考慮に含めれば良いのか」という問いに対して、バックドア基準はその「生成モデルの”切り取り方"」を明晰に示すものになります。

とは言え、実際のケースにおいて「切り取り方が明晰に分かる」ためには既に一定程度以上にその生成モデル（非巡回有向グラフ）が明確になっている必要があり、そのような状況でない場合には、傾向スコア解析のような「識別的モデル」を利用した方が実務上は有効な場合が多くなります。

あるいは、Pearlの体系側から見ると、非巡回有向グラフの構造が一部不明瞭な場合に、「バックドアパスに蓋をするための合成変数を識別モデルにより作成してまとめて蓋をする」というアプローチが「傾向スコア」であるという捉え方もできるかもしれません。（＊この理解でおそらく正しいと考えていますが、木曜日に黒木さんに確認してみようと思います）

因果推論と識別／生成モデルの周りをぐるぐると巡る

さて。冒頭にご紹介した筒井さんの記事では以下のような記述があります：

因果推論を志向するアプローチと、媒介による説明を志向するアプローチは、この記事でも書きましたが、実は少なくとも回帰モデルにおいてはそれほど異なった分析を生み出すわけではありません。異なってくるのは、因果推論が回帰モデルから離れて、措置効果モデルによって純粋に介入の因果効果を追求するときからです。実験に範をとったこのモデルでは、純粋に原因（介入）と結果の関係を推定するがゆえに、回帰分析では可能であった媒介要因による説明のプロセスが抜け落ちます。観察データに適用される措置モデルでは、外生的な共変量でバランスを取った上で措置の効果を推定するという手続きがとられますので、措置はすでに媒介ではないわけです。逆に言えば、説明のプロセス（≒理論）をスキップできることが統計学の「強さ」の源でもあるわけです。

（...中略...）

因果が複合的に決定されていて、したがってSUTVA違反がむしろ社会の常態であることは、社会学者の感覚としてはある程度共有されているはずです。そうではないと、パネルデータ分析にあまり関心が向かず（ここ最近社会学者のあいだでパネル調査プロジェクトに参加していて、社会学者がいかに措置効果モデル的な因果推論に関心がないのかを痛感しました）、検定といえば個々の係数の効果の検定ではなくログリニアモデルやSEMなどの確証系分析を好み、措置効果モデルよりは複数の変数間の関係を捉えることに向いている回帰モデルを長く愛用してきたという、一見奇妙な計量社会学の傾向性を理解できません。

ここで、「措置効果モデル」というのは、本記事で述べてきたところの傾向スコア解析のような「生成モデルをすっとばす因果推論モデル」に対応するものです。また、「媒介要因による説明のプロセス」というのは正に「生成モデル的アプローチ」による解析に対応するものと考えられます。（この筒井さんの記事もとても面白いのでぜひ全文をご一読ください！）

上記のような社会学者の「因果推論と識別／生成モデル」をめぐる逡巡は、「因果推論とRubin／Pearlの体系」をめぐる逡巡とも相似形を成しているように思います。

識別モデル的な因果解析はクリアカットかつロバストな因果推論をもたらすので有効だし、Pearl的な非巡回有向グラフを用いた「生成モデルからの因果推論」もまた捨てがたし、というようなぐるぐると巡る気持ち、そんな、「同級生のみゆきと妹のみゆき」の間でぐるぐると巡るような気持ち、のまま本記事は終わりたいと思います。

そして来る木曜日は夏の統計的因果推論祭りがやってきます。

【参考文献等】

(1) グラフィカルモデル入門／川本一彦さん＠slideshare
(2) 社会学と因果推論 - 社会学者の研究メモ
(3) 伊庭幸人 (2006) ベイズ統計の流行の背後にあるもの. 電子情報通信学会技術研究報告. NC, ニューロコンピューティング 106(279), 61-66, 2006-10-04
(4) 久保さんの日記の6/19や
6/20 に収録のつぶやきが本記事を書くきっかけとなりました。多謝です。

*1:CiNiiが利用不可の方は大変申し訳ない

*2:そもそものそもそもの話を言えば、元々は久保さんの日記にある6/19や[ http://hosho.ees.hokudai.ac.jp/~kubo/log/2014/0611.html#10:title=6/20]における識別/生成モデルに関するつぶやきにインスパイアされてこの論文にたどり着きました

*3:一般的にはプロビット回帰やロジスティック回帰モデルが用いられる。ノンパラメトリックなカーネル回帰を用いる場合もあるらしい→『調査観察データの統計科学』p55, p62参照