Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

(速報版告知)研究集会『エビデンスは棍棒ではない --- われわれは価値/規範と公共政策についていかに語りうるのか』3/11@国立環境研

こんにちは。林岳彦です。鈴木誠也は本当に立派でしたね(良いとこ探し)。

今回は研究集会の告知です。ちょっと早めのタイミングでの告知ですが、みなさま3月はお忙しいので、興味のある方々におかれましては早めにスケジュールの確保をいただきたくひとまず速報版での告知をさせていただく次第です。うっかりヤボ用など入れぬよう、何卒よろしくお願いいたします!

「エビデンス・リスク分析と公共政策の関係について、価値/規範の側面から議論する」ことを目的としたオープンな研究集会を以下の要領で開催します。ご興味のある方々のご参加を広く歓迎いたします。(参加費・事前登録等の必要はありません/本告知は速報版であり詳細は追って改めて告知させていただきます)


研究集会『エビデンスは棍棒ではない --- われわれは価値/規範と公共政策についていかに語りうるのか』(仮題)
3/11(月)14:00-17:30(終了時間は若干早まる可能性あり)
於:国立環境研究所温暖化棟交流会議室
https://www.nies.go.jp/sisetu/map/index.html


内容予定:(*現時点での講演タイトルは全て林による仮題です)

  • 林岳彦(国立環境研・環境リスク健康研究センター)『規範的リスク分析を待ちながら --- 趣旨説明』(仮題)
  • 佐野亘(京都大学・地球環境学堂)『規範的政策分析の確立に向けて』(仮題)
  • 江守正多(国立環境研・地球環境研究センター)『気候変動リスクと"価値"の問題』(仮題)
  • 加納寛之(大阪大学・人間科学研究科)『環境分野におけるEvidence-Based Policy Makingの適用に向けての"エビデンス"概念の整理と批判的検討』(仮題)
  • 村上道夫(福島県立医科大学・医学部健康リスクコミュニケーション学講座)『リスクと"価値" --- 東日本大震災以後の経験から』(仮題)
参考:講演者の著書など

公共政策規範 (BASIC公共政策学)

公共政策規範 (BASIC公共政策学)

異常気象と人類の選択 (角川SSC新書)

異常気象と人類の選択 (角川SSC新書)

地球温暖化はどれくらい「怖い」か? ?温暖化リスクの全体像を探る

地球温暖化はどれくらい「怖い」か? ?温暖化リスクの全体像を探る

  • 作者: 江守正多,気候シナリオ「実感」プロジェクト影響未来像班
  • 出版社/メーカー: 技術評論社
  • 発売日: 2012/04/20
  • メディア: 単行本(ソフトカバー)
  • 購入: 3人 クリック: 5回
  • この商品を含むブログ (2件) を見る
基準値のからくり (ブルーバックス)

基準値のからくり (ブルーバックス)

研究者諸賢への引継ぎ:学術誌の購読料高騰と論文のオープンアクセスについての情報まとめ

こんにちは。林岳彦です。好きな文房具はフリクション、最近のお気に入りは0.5mmのブルーブラックです。人生もフリクションのように過去の過ちをゴシゴシと消せたらいいのに、といつも思います。


さて。

わたくしは昨年度後半の半年間、弊所(国立環境研究所)内の企画部へと出向しておりました。そこでの諸々の業務については5月には後任の方に引き継ぎを完了したところです。この出向中に関わったものの中に「論文のオープンアクセス(OA)」の案件がありました。この案件に関する情報については単に弊所内の後任の方へ引き継ぐというよりも、日本の研究者/学術界の皆様へ広く引き継いだほうが良いかもしれないと思うところがあり、本記事を書くことにした次第です。


基本的に、現在の学術誌購読料と論文のOAを巡る状況は、いやこれほんとうに色々と舵取り難しいぞというところがあります。そのため、少なくとも職業的研究者の方々はこの状況について職務に関わる一般的な知識のひとつとして知っておいても良いのではないかと思います。

また、この文章を目にしている研究者のみなさまの中には、将来的に各研究所・大学・学会等で「論文のOA/(学術誌の購読に関する)図書館運営」についての検討委員などを担当される方もおられるかもしれません。そのような業務を担当される際に、本記事を本案件についてのエントリー的解説・情報リンク集として役立てていただければ、私としては最高に嬉しいです。


あ、最初に大事なことを書いておきますが、学会誌の購読料や論文のOAに関する状況は分野によって色々と異なる部分が大きく、本記事の記述に対して「自分の分野では違うよ!的外れだよ!」と感じる方も多いかもしれません。それはとても自然なことで、まさにそういう「各分野での慣習や認識の違い」も本案件における理解と合意形成が難しい本質的な要因の1つとなります。なので、「自分の分野では違う!」という違和感それ自体もまたこの案件を構成する要素なのだ、というメタ的な心づもりで本記事をお読みいただければ大変ありがたいところです。

内容をプロット的な箇条書きでまとめました

えーと・・・気負いつつも書きたいことを全て書いていたら、気を失うほど記事が長くなり執筆が座礁しかけてしまいました。

なので、本記事では「学術誌の購読料とオープンアクセスを巡る背景と現況」について以下のようにプロット的な箇条書き形式でサラッとまとめることにしました。

以下ではサラッとした説明に留めたので、さらなる詳細については文中の参照文献をお読みいただければと思います。むしろ、本記事の本体は参照文献リストの方であり、本記事内の文章はそのリストの添え物という心もちでお読みいただければありがたいところです。本案件に関する文献の多くはオープンアクセスになっているので、誰でも無料でダウンロードしてお読みいただけます。

ーーー

(1) 背景:学術出版の寡占化と”シリアルズ・クライシス”
  • 学術論文は「人類の知的アーカイブ」であり「人類の公的資産」である
  • 現在、「人類の公的資産」である学術論文へのアクセス許諾の権利は、少数の商業出版社により寡占されている
  • 1980年代以降の商業出版社の学術誌寡占化による購読料の高価格化(”シリアルズ・クライシス”)、さらに2000年代以降の出版業務の電子化による継続的な高騰により、学術機関による学術誌の購読の維持はますます難しくなってきている尾城・星野 2010
    • メモ:経済学的な観点から見た場合、読者の立場から見た「学術誌」は代替の難しい財であるため価格が高止まりしやすい*1
  • また、ジャーナルの電子化により、個々の雑誌の購読ではなく出版社単位での「学術誌のセット販売化*2」が定着してきている
  • 出版社による「セット販売化」と並行して、購入側では複数の機関によるコンソーシアムを介した一括大型購入契約(”メガ・ディール”契約)が定着してきている(尾城 2010; PDF直リンク
  • ”メガ・ディール”により、アクセス可能な学術誌数の機関間格差は一般に縮まったものの、全体での学術誌購読費用は依然高止まりしつづけている(尾城 2016; PDF直リンク
  • 多くの学術機関において運営費交付金が減らされて続けている中で、学術誌の購読費用の高騰や高止まりは正直しんどい
(2) オープンアクセスの潮流とそのさまざまな思惑:OAメガジャーナルの興隆と伝統誌のハイブリッド化
  • 学術誌購読料の高価格化が進む一方で、「オープンアクセス(OA)論文」の潮流が育ちつつある(オープンアクセス - Wikipedia
  • 「OA論文」とは、購読料を支払わずとも誰でも無料でダウンロードして読める論文である(→読者にとって優しい)
  • 「論文のOA」には大きく分けて”Gold OA”と”Green OA”がある佐藤 2013)
  • "Gold OA"とは:出版社により出版された公式の論文がそのままOAになるケース
    • Gold OAのケースでは、一般に出版費用(APC; Article Processing Charge)を著者側が支払う
  • PLoS系やBMC系などのGold OA専門の”OAメガジャーナル”は、「読者側」から購読料を取るのではなく、論文を数多く掲載し「著者側」からAPCを徴収することにより収益を得るビジネスモデルである
    • これらのOAメガジャーナルは、ビジネスモデル的に多くの論文を載せる必要があることから査読が甘くなりがちで、一般論として、論文の質の担保に課題を抱える
  • 近年は、伝統的な購読型(非OA)の学術誌においても、オプションでAPCを支払うことで論文単位でGold OAにできる(従来の学術誌の”ハイブリッド誌”化)
  • "Green OA"とは:著者自らが著者原稿等を電子アーカイブとして公開するケース
    • 物理学や経済学などプレプリント文化を持つ分野では、arXivなどのプレプリント・サーバーの利用が広まっており、著者原稿等が無料で読めるシステムが成立している(arXiv - Wikipedia
    • Green OAは一般に商業出版の枠外での公開であるが、一般に、論文の質の担保のための査読システムなどは既存の商業出版のシステムに依存/寄生している側面もある
    • 従来の購読型の学術誌でも、エンバーゴ期間の後などの条件付きで、APC無しで「著者原稿等の著者によるアップロードによるGreen OA」を認めているケースもある
    • Green OAでの原稿のアップロード先としては、研究者が所属する機関のレポジトリリポジトリや、研究者SNSの一種であるResearch Gateなどが利用されることが多い(機関リポジトリ - Wikipedia; ResearchGate - Wikipedia
(3) どうやって/どこまでOAにするのか:前門の購読料、後門のAPC
  • 学術論文のOAにおける大義:公的資金で行った研究は、市民に無料で還元されるべき(キッパリ)
  • 世界的に学術論文のOAについてはもはやその是非を議論する段階は過ぎており、現在の論点は「どうやって/どこまでOAにするのか」である佐藤 2013
    • 実質的に考えると「論文のOA」とはGold OAであり、一般にGreen OAは周辺的・補完的なものでしかない*6(土屋 2016; PDF直リンク
    • OAの普及により購読料の高騰を止められるかどうかは微妙なところである(機関レポジトリリポジトリを介したGreen OAは購読料の高騰に対してはおそらく無力と思われる; 土屋 2016; PDF直リンク
  • 研究費負担の観点からのワーストケースとして、「購読料」と「APC」の二重取りにより、今後さらに研究者/研究機関の費用負担が増することもありうる
  • ワーストケースを避けるための出版社との”メガ・ディール”の交渉においては、まず「購読料+APC」の総額を把握することが基礎データとして必要である(林 2014
  • しかし、一般に学術機関内で「購読料」と「APC」は予算管理的に全く別枠なので、現状ではその総額を把握することすら困難である
  • 「購読料+APC」の総額をマクロで見ると、おそらく「全てOA誌に移行(=全ての学術誌が「購読料無し+APC有り」になる状況)」が一番安くなるらしい(尾城 2016; PDF直リンク
    • メモ:経済学的な観点から見た場合、「読者にとっての学術誌」は代替が難しい財であるのに対し、「著者にとっての学術誌」は代替可能な財であるため価格高騰が比較的に生じにくい(著者はAPCの安価な雑誌を選んで投稿することができる)
  • 「全ての学術誌が「購読料無し+APC有り」となる状況が正解」だとしても、その具体的な「移行への道筋」は見えない(山本ら 2016;PDF直リンク
(4) 全てOAになる日まで:「読者-著者-学会」のジレンマ
  • 国際的にも国内的にも「全ての論文についてのOA」を目指すことは既定事項であるが、その途上で「読者-著者-学会」のジレンマが生じることはおそらく避けがたい(以下に2つの将来シナリオの例を示す*7
  • 全OAへの将来シナリオA: PLoS系やBMC系のようなOAメガジャーナル、もしくはarXivのようなプレプリント・サーバーが中心となり全OAへと進む
    • 読者の立場としては◎→論文が無料で読めるので助かる(購読料による壁の消失/非アカデミアや経済の弱い国の読者にも利益大)
    • 著者の立場としては○→OAメガジャーナルが主流となることでAPCに健全な価格競争が働き、APCが比較的に安価に留まる。ただし、APCが必須化することで経済の弱い国の著者が投稿しにくくなる懸念もある*8
    • 学術誌を運営する学会の立場としては×→既存の学会が担う「伝統ある購読型学術誌」が斜陽化する。分野における論文の質の担保にも大きな課題を抱えることになる。ひいては学会の”存在意義”の見直しも必要となるやも
  • 全OAへの未来シナリオB:「ハイブリット化した伝統誌」が中心となりつづけ、ハイブリット誌の枠組みの中で全OAへと進む(OAメガジャーナルやプレプリント・サーバーは周辺的存在のまま)
    • 読者の立場としては△→どのみち論文単位のOA化でのOAが広がるため、無料で読める論文は増えていく。ただし、購読料ベースのビジネスモデルは併存されるため購読料の高騰は解消しない
    • 著者の立場としては×→ハイブリッド化した伝統誌における論文単位でのOA化のための高額のAPCが研究費を圧迫する。最悪の場合には「購読料とAPCの二重徴収」でさらに研究費が圧迫される。さらに、高額のAPCを払えない著者は高IFの雑誌に投稿しにくくなる
    • 学会の立場としては◎→既存の学会が担う「伝統誌」が維持される。論文の質担保が維持される

  • どちらの将来シナリオでも、ブランド系ジャーナルのAPCは高止まりしそう。超高IFの雑誌に投稿できるのは経済的に余裕がある研究者だけになるかもしれない。
  • 将来シナリオBの場合でも、「ハイブリッド化した伝統誌」を運営する学会側が「論文単位でのOA化のためのAPC」の価格を制御できれば問題ないのではあるが・・・
    • 力のある学会であれば「学会員のAPC減免」や「エンバーゴ期間の設定(→論文単位でのOA化のためのAPCを支払わなくとも中長期的にはOAは担保される)」のような形でバランスを取りながらの運営が可能かもしれない
    • しかし一般に、学術出版の寡占化により商業出版社の力は強大なものになっている
    • そのため、現在のところ学術誌の運営母体である学会側は自らの雑誌の運営方針についての自己決定権の多くを失ってしまっている
      • メモ:例えば学会は(「のん」のように)自らの学術誌の名称の権利も学術出版社側に握られている場合が多く、自ら運営する雑誌について出版社から独立することもなかなか難しい有田 2016
    • 分野によっては学会が主導する形でのOA推進もありうるのかも(例;物理学系のSCOAP^3; 安達 2016; PDF直リンク

まとめと雑感、および研究者諸賢へのお願い

はい。以上にプロット形式でまとめてみました。プロット形式にしても長かった。。。


以下、まとめと雑感とお願いです:

内容のまとめ:
  • 雑誌購読料が高止まりしていて、ずいぶん前から学術界として正直もうしんどい(尾城・星野 2010
  • 学術論文の全OAの推進は国際的にも国内的にも既定事項であり、現在の論点は「どこやって/どこまでOAにするか」である(佐藤 2013
  • 論文のOAには”Gold OA”と”Green OA”がある(佐藤 2013; オープンアクセス - Wikipedia
  • OAとは実質的には”Gold OA”であり、Green OAは周辺的・補完的なものである(土屋 2016; PDF直リンク
  • 伝統的な購読型学術誌の論文を論文単位でOA化しようとすると、一般に高額のAPCがかかる(林 2014
  • 「全てがOA誌になる未来」が「雑誌購読料+APC」の総額としてはおそらく一番安く済む(尾城2016; PDF直リンク
  • 全OAへの途上には「読者-著者-学会のジレンマ」が待ち構えている
  • 全OAへの具体的な道筋は見えず、今後の舵取りは簡単ではない(山本ら2016; PDF直リンク
林の雑感:
  • 研究者サイドが「日本の学術界として雑誌購読料やAPCに関する価格交渉力をどう獲得していくのか」という視点を持たないと、全OAへの流れの中で大手商業出版社の良い金づるとして日本はカモられ続けるのは必至だと思う
  • OAメガジャーナルのことを見下している研究者も(特に年配の研究者に)多いが、学術界としてOAメガジャーナルを「うまく育てて適切に位置づける」ことは学術界の未来のために重要であると思う
  • この件では研究者は大手商業出版社のgreedさを一方的に責めがちであるが、その"greed"なモンスターを育てたのはとりもなおさず「研究者たち自身のIFと論文数を巡る欲望」であることをもうちょっと自省しても良いと思う(仮面ライダーオーズ的なかんそう)
  • 声が大きくて予算が潤沢な研究者はAPCのお金など気にしなさそうなので、そもそも日本では「購読料とAPCの二重徴収」は問題として認識されないままに終始するのかもしれない
  • 学会運営サイドとしての研究者の立場から考えると、全OAという方針の中で学会誌の舵取りをどうするのかというのはかなり悩ましい問題である。正直、どのような舵取りが正解なのか何とも言えないところがある。悩ましい。
  • 特にマイナー学会は、全OAの方針により「学会誌の閲覧権」という会員特権が無くなったときにどうやって学会の魅力を維持しうるのかを真剣に考えないといけない。こちらも悩ましい。
研究者諸賢へのお願い:
  • 論文の投稿先を選ぶときには、本記事の状況を頭の片隅に置いた上で選んでほしい
    • greedyな学術誌への投稿は、その学術誌のgreedyな運営方針への実質上の承認/加担として機能することを自覚しよう
  • もし所属機関の図書館や管理部門の人が「研究者がAPCにかけている費用」を知りたがっていたら積極的に協力しましょう
    • 「学術誌購読料+APC」総額のデータがないと図書館コンソーシアムが大手出版社とメガ・ディールの交渉をしにくいという事情があるそうです


はい。

つらつらと書いてきましたが、私から伝えたいことは以上です。

もし内容に何かツッコミや補足などありましたらコメント欄やブコメやtwitterなどでお知らせいただければ、追記や改訂など適宜対応いたしますのでぜひ情報をお寄せください。


今回も長い記事となってしまいましたが、ここまでお読み頂いた方、大変ありがとうございました!


# 本記事をもって私の弊所内の管理部門への出向からの引き継ぎ作業は全終了したので、これからはブログもぼちぼち更新していきたいです

【謝辞】

本記事の執筆においては国立環境研究所の尾鷲瑞穂さんに情報のご提供および記事内容への貴重なコメントをいただきました。大変ありがとうございました。
*尚、本稿の文責は全て林岳彦にあります。また、本稿の内容は特定の組織の見解を反映したものではなく、林岳彦個人の見解です*

【参照文献リスト】

本記事の文章にはニワカである林の私見も交じっておりますが、以下の文献についてはその道のプロが書いたものとなりますので*9ので、もし本件についての公的な議論にご参加する際にはぜひ以下のリストの文献を一通り直接お読みいただければと思います。

  • 尾城 (2010) 『ビッグディールは大学にとって最適な契約モデルか?』(PDF直リンク
  • 尾城・星野 (2010) 『連載:シリアルズ・クライシスと学術情報流通の現在 (1) 学術情報流通システムの改革を目指して 国立大学図書館協会における取り組み』(リンク
  • 佐藤 (2013) 『オープンアクセスの広がりと現在の争点』(リンク
  • 林 (2014) 『オープンアクセスを踏まえた研究論文の受発信コストを議論する体制作りに向けて』(リンク
  • 尾城 (2016) 『学術雑誌のキャッシュフロー転換の可能性を探る 〜JUSTICE/SPRAC Japan合同調査チームによる調査結果の概要〜』(PDF直リンク
  • 土屋 (2016)『オープンアクセスのあり方、グリーンOAとゴールドOA』( PDF直リンク
  • 山本ら(2016)『ディスカッション「グリーンOAとゴールドOAと日本としての対応」』(PDF直リンク
  • 有田 (2016)『学術誌をどう出版するか:商業出版社に託す場合の注意点』( リンク
  • オープンアクセス - Wikipedia

オープンアクセスを巡る近年の動向については、以下の2016年開催のセミナー資料をチェックすると雰囲気が一番掴めるかもしれません

その他参考情報:

*1:重要な先行研究の論文はどんなに価格が高くとも読まないわけにはいかない!

*2:”読みホーダイ”プラン的な

*3:英語にも「二度づけ」という表現があるんだなあ、と思いました(こなみ)

*4:雑誌によっては購読料を払っている人のAPCを割引するケースもあるらしい/この辺りは分野にもよるので林は正直良くわからない部分がある

*5:この辺りは個々の雑誌の方針による

*6:プレプリント・サーバーの利用が定着している分野では少し事情が異なるかも

*7:以下のシナリオは林が説明のために便宜的にまとめた仮想のものであり、専門家の裏付けがあるものではないのでご注意ください

*8:この点については、雑誌によってはAPCの減免措置なども用意されている

*9:まあでも「一般の研究者目線」というよりは「図書館目線」だなあ、というのは端々に感じるたりもするところではありますが

応用哲学会での発表『リスク分析と予防原則』のスライドをweb公開しました

オッス!オラ人身御供!林岳彦です。ブログではお久しぶりです。4/1より弊所内での管理部門への出向から帰ってきました!半年間のあいだ研究から引き離されておりましたので、浦島太郎状態というか、浦見魔太郎状態というか、こ・の・う・ら・み・・・とメラメラしておるところです。


さて。

研究への復帰直後にいきなり応用哲学会@名古屋大でのワークショップ『予防原則のメジャーアップデート』の中で発表させていただく機会がありました。(関係者のみなさま大変ありがとうございました)

以下にそのスライドをweb公開いたしました。応用哲学会での発表のため、科学哲学やSTS的な論点への繋がりを強く意識した内容となっています。こんなバランスの発表が成り立つのは応用哲学会くらいじゃないかなーと思います。かなりマニアックな内容とはなっておりますが、好事家の方々におかれましてはぜひ一見いただければ幸いです。

今後とも何卒よろしくお願いいたします。

内生性・交絡 revisited:説明変数と残差と誤差の相関をのんびり眺めるの巻

こんにちは。林岳彦です。ggplot2を使いこなすシャレオツな若い人を見ると自分の老いを感じる今日このごろです。



さて。


今回は、「説明変数と誤差項に相関がある」とはどういうことか、について見ていきたいと思います。


経済学系の統計解析の本を読んでいると「内生性」という概念がよく出てきます(経済学系でない分野においては、「交絡」と呼ばれるものに実務上はおおむね対応する概念と言えます)。

この「内生性」の説明としては、例えば:

計量経済モデルにおいて、説明変数と誤差項との間に相関があるときに、内生性(endogeneity)があるという。このとき、説明変数は内生的(endogenous)であることになる。説明変数が内生的であれば、推定されたパラメータは一致推定量ではなくなり、推定値は統計学的に信頼されるものとはなりえない。

のように説明されます(内生性 - Wikipediaより引用*1。強調は引用者による)。


お分かりになりましたでしょうか。


うーん。このように「説明変数と誤差項との間に相関があるとき」とペロっと言われても、それはいったい内実としてどういうことなのでしょうか? ここはちょっと直感的には掴みづらいところがあります。説明変数と誤差項との相関。やれやれ。村上春樹の小説の主人公ならばそう呟くところかと思われます*2


少なくとも、私も長らくのあいだ「頭では概念として理解はできるけども、なんか腑に落ちた気がしないんだよなあ!」みたいなかんじでモヤモヤを抱えてきました。(一般的な傾向として、「交絡」の概念の方により親しんでいる人々にとっては「内生性」の概念はにわかに掴みづらいところがあると思います)

なので今回、「説明変数と誤差項に相関がある」という現象について、具体的な数値例と数式と散布図などを行き来しながら一度のんびりと眺めてみようと思いました。


以下はその観察記録です。あと、私はRの作図用パッケージであるggplot2を余り使ったことがなかったのでその練習も兼ねております。なんか、ggplot2を使う若者が、眩しかったので。

いつもながらめちゃくちゃ長い記事となっておりますが誠に申し訳ありません(一二塁間を鋭く転がるゴロに対して菊池涼介が飛びつくイメージで土下座)。もしご興味のある方はあくまでごゆるりとご参照いただければと思います。


注:以下の内容では特に何か新奇なことが書いてあるわけではありませんが、例えばもしあなたが「内生性があるとき、説明変数と残差の間には相関はありますか?」と聞かれて即答できなかったり、即答できたとしてもその話と「誤差」と「残差」の関係についてモヤモヤが残るようであれば、以下の内容を読むことで何らかの気付きがあるかもしれません。

まずそもそも:回帰分析の「誤差項」って何だろう?


まずちょっと誤差項について「そもそも」的な話をしておきたいと思います。「説明変数と誤差項の間に相関がある」という話が直感的に飲み込みにくい理由のひとつは、「誤差」という語の一般的なイメージにあるように思います。

分野と文脈にもよるかもしれませんが、一般に「誤差」という語は「偶然により生じるバラツキ」という意味内容で用いられることが多いかと思います*3

この「誤差=偶然によるバラツキ」のイメージだと、「説明変数」と「誤差項」が相関する、と言われてもちょっと直感的には分かりにくいかもしれません。「偶然」なのに「相関」する、というのはちょっとモヤモヤしますよね。偶然と相関は別ではない、むしろその一部として存在するのだ。村上春(以下略)


実際には、回帰分析における「誤差項」というのは、「偶然によるバラツキ」というよりも「回帰モデル内に含まれていない要因に起因するバラツキ」を表すものと言えます。そんなこと知ってるよ!という方も多いかと思いますが、以下では具体的な数値例をもとに、「説明変数と誤差項に相関がある」という現象がどう生じるかをのんびりと眺めていきます。

数値例で考える:手始めとして内生性がないケースについて

用いるデータの説明( n=1000

1000人についてのデータを考えます。 Yが興味のある目的変数で、 Xが興味のある処理変数とします。本記事では基本的に、「 X→Yの介入(因果)効果」の推定を目的として考えていきます。また、 X Y以外の要因(いわゆる共変量)として変数 A, B, C, D, Eを考えます。個人 iがもつ各変数の値は、それぞれ  y_{i}, x_{i},a_{i}, b_{i}, c_{i}, d_{i}, e_{i}と表記します( i = 1, …, 1000)。

具体的なデータの数値は以下になります(最初の10人分だけ示します):

##            Y        X  A         B        C        D        E
## 1  117.74459 20.10945 50 17.515979 7.328762 5.274418 3.979622
## 2  101.26213 33.28693 50  4.512647 4.144204 4.805702 4.270394
## 3  104.58084 14.87584 50 14.527577 4.943072 5.706772 6.026504
## 4  132.57335 28.21539 50 20.072712 7.622195 6.590343 3.644171
## 5  119.69218 29.66154 50 14.602998 5.948058 4.876588 7.042868
## 6  131.00739 42.60949 50 13.724355 6.274851 4.674336 3.872113
## 7  135.54970 34.28185 50 18.904753 9.574860 3.883485 5.684925
## 8  123.86800 23.30899 50 21.037063 3.268138 5.216748 4.176329
## 9  117.50302 38.75542 50 10.460737 3.967846 3.858279 6.439549
## 10  96.44099 21.65111 50  7.983961 4.685668 4.136289 4.839025

ここで、このデータの y_{i}は以下の式1によって完全に決定論的に作成されています。この式1は、本来は"神のみぞ知る"ような「 Yの生成メカニズム」を表しているもの*4と考えてください。

 y_{i} = x_{i} + a_{i} + 2b_{i} + c_{i} + d_{i} (式1)

つまりこのデータにおいては、個体のレベルで見たときの y_{i}の値は「 x_{i}, a_{i}, b_{i}, c_{i}, d_{i}の関数( y_{i} = f(x_{i}, a_{i}, b_{i}, c_{i}, d_{i}))」として完全に決定論的に定まっています(上記の式1にはいわゆる”誤差項”がないことに注意してください)*5

ここで、 YOSHIKIとXの関係からForever Love 与式1の関係から「 x_{i}が1増加すると、 y_{i}が1増加する関係にある」ことが分かります。つまり、「 X→Yの介入効果(= Xを1単位増加させたときの Yの増加量)」の"真の値"は、与式1から"1"となっています。

データ全体の概観をつかむために、 Y, X, A, B, C, Dの相関行列を図示してみます*6


f:id:takehiko-i-hayashi:20170905064412p:plain

この図の中の右上部は相関係数(注: p値と間違えやすいので注意)を、左下部は散布図を表しています。

このデータの特徴をまとめると以下のようになります:

  • データ内に含まれる変数は Y X, A, B, C, D, E
  •  Aはサンプル内で常に A=50であり、このデータにおいては分散を持たない変数となっている
  •  Y X, B, Cの間には相関が見られる(YOSHIKI 1から生成されているので*7
  •  X A, B, C, D, Eは相関していない(注:これらのデータはRで作成しましたが、実際にプログラムコードの中でも X, A, B, C, D, Eは互いに独立に生成されています)

では、このような特徴をもつデータを用いて内生性と残差と誤差の関係についてのんびり眺めていきましょう。

のんびり回帰分析してみよう(まずは内生性がない場合)

上記の数値表のデータにおいて、 X Yのみが観察可能である(= A, B, C, D, Eの値は解析者には分からない)状況を想定し、 X Yを単回帰してみます。回帰直線のプロットは以下のようになります:


f:id:takehiko-i-hayashi:20170906061338p:plain:w275

ここで Y Xで単回帰してみます。Rでの結果の要約は以下のようになります:

lm.res <- lm(Y ~ X)
summary(lm.res)
## 
## Call:
## lm(formula = Y ~ X)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -31.4218  -7.2333   0.0179   7.3268  31.5752 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 89.85904    0.66858  134.40   <2e-16 ***
## X            1.00607    0.02355   42.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.71 on 998 degrees of freedom
## Multiple R-squared:  0.6465, Adjusted R-squared:  0.6461 
## F-statistic:  1825 on 1 and 998 DF,  p-value: < 2.2e-16

ひとつづつ要素を確認してみましょう。

上記の"X"の行の”Estimate”が Xの回帰係数となります。回帰係数の推定値は「1.00607」となっています。回帰係数の正解の値はYOSHIKI 1より「1」なので、かなり高い精度で推定されているといえます。また、R2乗値(”R-squared”)は0.65、回帰分析の定数項(”Intercept”) は89.86になっています。


では、この回帰分析の「部屋」と「Yシャツ」と「私」「残差」と「誤差」と「 X」のあいだに相関があるか見ていきましょう。

「残差」と Xの相関をみてみよう(内生性がない場合)

まず説明変数である Xと「残差」の相関を見てみます。残差とは「実際のデータである y_{i}の値」と「得られた回帰モデルによる y_{i}の予測値」の差分となります。図で表すと、実際のデータと回帰直線との縦側のズレが回帰分析における「残差」になります(下図のイメージ)。


f:id:takehiko-i-hayashi:20170907064804p:plain

数値的なイメージを掴むため、 Y, X, Yの予測値("Y_predict"), 残差("Y_residual")の数値も以下に示しておきます(最初の10データ):

##            Y         X Y_predict    Y_residual
## 1  117.74459 20.109453 110.09058   7.654013021
## 2  101.26213 33.286928 123.34805 -22.085923505
## 3  104.58084 14.875842 104.82519  -0.244353842
## 4  132.57335 28.215392 118.24573  14.327627596
## 5  119.69218 29.661538 119.70065  -0.008472325
## 6  131.00739 42.609494 132.72721  -1.719821246
## 7  135.54970 34.281848 124.34901  11.200687438
## 8  123.86800 23.308985 113.30953  10.558463946
## 9  117.50302 38.755424 128.84975 -11.346723721 
## 10  96.44099 21.651110 111.64159 -15.200605708

上記の「残差」の値の1000人分の分布も描いてみます。0の周りにおおむね対称にバラついていることが分かります。


f:id:takehiko-i-hayashi:20170908065042p:plain:w275

では「 X」と「残差」の相関を見てみましょう。どん!


f:id:takehiko-i-hayashi:20170908065231p:plain:w275

はい。安心してください。相関はありません。

これはある意味当たり前の話になります。なぜなら、そもそもこのような回帰分析では回帰直線の傾きが「説明変数以外で説明できないバラツキ」との相関がゼロになる(直交する)ように選ばれているからです(以下の参考図のイメージ/必要に応じて拡大などしていただければ幸いです)。


f:id:takehiko-i-hayashi:20170908065321p:plain


*この辺りの回帰分析と残差にまつわるエトセトラについては以下のhoxo_mさんの記事の説明がとてもステキだと思いますので適宜絶賛ご参照いただければと思います:

統計的消去で擬似相関を見抜こう! - ほくそ笑む


「誤差」と「 X」の相関をみてみよう(内生性がない場合)

では次は、「誤差」と「 X」の相関をみていきましょう。

はてと。実は、困ったことに、通常はデータから「回帰分析の誤差項」そのものは算出できません。

・参考:BellCurveさんの良記事→ 27-3. 予測値と残差 | 統計学の時間 | 統計WEB

しかし、今回はチート的状況として「真のメカニズムモデル」が以下の式1により与えられています

 y_{i} = x_{i} + a_{i} + 2b_{i} + c_{i} + d_{i} (式1)

そこで本記事では、式1の変形から「 Yのうち Xでは決まらない部分」を「誤差」と定義することにより:

 誤差_{i} = y_{i} - x_{i} =  a_{i} + 2b_{i} + c_{i} + d_{i}

の式により「誤差」の値を算出していきます。

イメージを掴むため、 Y, X, Yの予測値("Y_predict"), 残差("Y_residual"), 誤差("Y_error_byEq1")の数値表を以下に示します(最初の10データ):

##            Y         X Y_predict    Y_residual Y_error_byEq1
## 1  117.74459 20.109453 110.09058   7.654013021      97.63514
## 2  101.26213 33.286928 123.34805 -22.085923505      67.97520
## 3  104.58084 14.875842 104.82519  -0.244353842      89.70500
## 4  132.57335 28.215392 118.24573  14.327627596     104.35796
## 5  119.69218 29.661538 119.70065  -0.008472325      90.03064
## 6  131.00739 42.609494 132.72721  -1.719821246      88.39790
## 7  135.54970 34.281848 124.34901  11.200687438     101.26785
## 8  123.86800 23.308985 113.30953  10.558463946     100.55901
## 9  117.50302 38.755424 128.84975 -11.346723721      78.74760
## 10  96.44099 21.651110 111.64159 -15.200605708      74.78988

上記の「誤差」の値の1000人分の分布は以下のようになります。90くらいの値を平均として対称に分布していることが分かります。


f:id:takehiko-i-hayashi:20170910074146p:plain:w275


さて。ではこれらの誤差と Xのあいだに相関はあるでしょうか? 誤差と Xの散布図を見てみましょう!


f:id:takehiko-i-hayashi:20170910074224p:plain:w275

はい。相関はありません。つまりこの例では「内生性が」ない、ということになります。


ここで、「残差」と「誤差」の分布を重ねて見てみましょう。(改めて考えてみると、なかなか、「誤差の分布」と「残差の分布」を重ねてみることは無いのではないでしょうか。私も今回はじめてこのような作業をしてみました!)


f:id:takehiko-i-hayashi:20170910074247p:plain

両者の分布は形状は似ていますが、平均の位置がズレています。この平均のズレの理由は、回帰分析の中では「 X以外の要因からの影響」のうち「平均に関する影響」は定数項(切片)として切り分けて扱われているためです。

上記の誤差について「誤差 - 回帰モデルの切片の値」として定数項分の補正を行うと、両者の分布の中心はゼロとなり、分布全体が以下のようにほぼ一致します:


f:id:takehiko-i-hayashi:20170910074306p:plain

はい。もしかしたら、このように切片のぶんだけ補正すれば「誤差」と「残差」の分布が重なるのは当たり前のようにも思う方も多いかもしれません*8

しかしながら、後で見るように、「誤差」と「残差」の分布は(切片の補正を行っても)内生性がある場合には一般に重なりません

少し脱線:(回帰分析の文脈における)「誤差」について改めておさらいをしてみる

さてさて。ここで少し「誤差」について、改めておさらいしてみたいと思います。(お急ぎの方はここの部分は読み飛ばしていただいても構いません)


今回の例では、私たちは与式1により「 y_{i}の値は x_{i}, a_{i}, b_{i}, c_{i}, d_{i}, e_{i}の値から決定論的に決まっている」ことを知っています。つまり、個体レベルで見ると a_{i}, b_{i}, c_{i}, d_{i}, e_{i}からの寄与は「偶然」のものではありません。しかしながら、集団全体のレベルで回帰したときには、 Xの寄与としてカウントされない a_{i}, b_{i}, c_{i}, d_{i}, e_{i}のバラツキからの寄与は、「誤差項」の中で表現されることになります。このように、回帰分析における「誤差項」というのは「偶然によるバラツキ」というよりも、「回帰モデル内で表現されていない要因に起因するバラツキ」と呼ぶべきものになっています。

ここでもう少し粘っこく考えてみると、1段階さらに遡って、 a_{i}, b_{i}, c_{i}, d_{i}, e_{i}の値がもし「偶然により生じている」のであれば、それならばやはり「誤差項」は「偶然のバラツキ」と呼びうるのではないか、と考えることも可能かもしれません。この論理をどんどん敷衍していくと、そもそも「偶然とは何か」という哲学的な範疇の問いになってきます。本記事はひとまず、(人間は認知能力に限界があるので「偶然」という概念を都合よく用いたがるだけで)我々が現実の中で思考の対象とするようなマクロな現象は実際にはおおむね決定論的に定まっていると考えても差し支えないだろう、という立場で書いています。(とは言え、本記事の話の枠組みにおいては、例えば上記の c_{i}の値のバラツキは本当は「神がサイコロを振ったことによる”真の偶然”によるバラツキなのだ!」と考えても、議論の大枠は全く変わりません

ついでに、ちょっと本筋の話とは外れますが、また少し違う方向からも「誤差」について眺めてみましょう。誤差は「モデルに含まれていない要因に起因するもの」とは言っても、 X→Yの単回帰モデル内に含まれていない a_{i}, b_{i}, c_{i}, d_{i}, e_{i}からの寄与の全てが( X→Yの単回帰モデルの)「誤差項」の中で表現されているわけでもありません。集団の中でバラついていない部分による寄与は、「定数項」の中で表現されています。

例えば、今回の例では要因 Aには集団内でバラツキがないため、要因 A Yの値への寄与は定数項の中でのみ表現されます。ここで注意してほしいのは、実際には、 Yの値が構成される上で、要因Aは諸要因の中でもっとも寄与が大きい要因であることです。以下に式1ともともとのデータの数値表(最初の10データ)を再掲します:

式1は以下で:

 y_{i} = x_{i} + a_{i} + 2b_{i} + c_{i} + d_{i} (式1)

データの数値は以下です:

##            Y        X  A         B        C        D        E
## 1  117.74459 20.10945 50 17.515979 7.328762 5.274418 3.979622
## 2  101.26213 33.28693 50  4.512647 4.144204 4.805702 4.270394
## 3  104.58084 14.87584 50 14.527577 4.943072 5.706772 6.026504
## 4  132.57335 28.21539 50 20.072712 7.622195 6.590343 3.644171
## 5  119.69218 29.66154 50 14.602998 5.948058 4.876588 7.042868
## 6  131.00739 42.60949 50 13.724355 6.274851 4.674336 3.872113
## 7  135.54970 34.28185 50 18.904753 9.574860 3.883485 5.684925
## 8  123.86800 23.30899 50 21.037063 3.268138 5.216748 4.176329
## 9  117.50302 38.75542 50 10.460737 3.967846 3.858279 6.439549
## 10  96.44099 21.65111 50  7.983961 4.685668 4.136289 4.839025

ここで、 y_{i}の平均は105ですが、 Yの値のほぼ半分となる50の分は要因 Aの寄与によるものです。しかしながら、ここでもし要因 Aを回帰モデルに加えても、「要因 A Yに全く影響を及ぼさないもの」として解釈されます(集団内でバラツキがないので!)。

これは「メカニズム的な観点から見た Yへの寄与( Yの値の半分は Aによる)」と「統計的に得られた回帰モデルの観点から見た Yへの寄与( Y Aによらない)」は全く異なることを意味しています。(唐突に感じられるかもしれませんが、集団遺伝学的観点から見える「遺伝子の寄与」と、遺伝子ノックアウト法の観点から見える「遺伝子の寄与」が全く異なることと同型の論理です)

この違いを理解しておくことは、「統計的に得られた回帰モデル」の一般化可能性/外的妥当性を考える上で非常に重要なことです。もし、 Aの値が異なったり、 Aのバラツキが大きい集団に対して、上の数値例から得られた回帰式を用いて予測を行うと、全く的外れな予測をもたらす可能性があります。例えば、 A=0の集団に対して上の数値例から得られた回帰式で予測を行なっても当然、 Yの値は50の分だけズレてきます。また、 Aに大幅なバラツキのある集団に対して予測を行なっても、その Yの予測能力は Aのバラツキの分だけ大幅に低下することになります。さらに、 Aが不均一な集団において、 A Xに交互作用があったり、 A Xの間にバックドアパス(参照)があったりする場合には、 Xへの介入効果の推定にもズレが生じてきます。このように、均一性の高い集団に対する統計解析から得られたモデルからの結果を、その特性が異なる・不均一である集団に適応するときにはかなりの慎重さ("humility")が必要となります。


とても当たり前のことを言っているようですが、いざデータから回帰式を得てしまうと、それがあたかも普遍法則であるかのように捉えてしまいがちなのは人のロマンシング・サガとも言えるので、みんなで気をつけていきましょう。

いよいよ本題:「内生性がある場合」を眺めてみよう!

さてさてさてさて。少し脱線しました。本題に戻りましょう。いよいよ「内生性がある」場合を見ていきます。

今までの例とほぼ同じですが、その生成モデルにおいて Xが他の変数 B Eの関数である点だけ異なる場合を考えていきます。

 x_{i} = 2b_{i} + e_{i}
 y_{i} = x_{i} + a_{i} + 2b_{i} + c_{i} + d_{i} (式1)

このように、(モデルを構造方程式で表現したときに) X自体が他の変数の関数として左辺に現れているとき、 Xを内生変数と呼ぶようです(この辺りの計量経済系の用語の定義にはあまり自信ないですが。参考:内生変数@コトバンク

 Yを生成する式は今までの例と同一の与式1です。大事なことなので繰り返しますが、目的変数である Yを生成する式は今までと同一の与式1です。今までの例と同様に、与式1より、 X→Yの介入効果(= Xを1単位増加させたときの Yの増加量)は「1」となります。後でまた触れますが、与式1の中で「 Y Xと同じく Bの関数」となっていることがここのキモです。


データ全体の概観を掴むために相関行列を見てみましょう:


f:id:takehiko-i-hayashi:20170917092212p:plain

このデータにおける変数 A, B, C, D, Eの値は最初の例のデータと同じ値を用いています。一方、 Xの値は「 X B Eの関数」であるため B Eから新たに(決定論的に)生成された値になっており、(最初の例とは異なり) X B,  X Eの間に相関がみられています。

では、 X Yのみが観察可能である状況を想定し、 X Yを単回帰してみます。回帰直線のプロットは以下のようになります:


f:id:takehiko-i-hayashi:20170915062443p:plain:w275

はい。今回の例でも Yの生成モデルとなる与式1は同じであるため、予想通り強い比例関係が見られています。

Rでの分析結果の要約は以下のようになります:

lm.res2 <- lm(Y2 ~ X2)
summary(lm.res2)

Call:
lm(formula = Y2 ~ X2)

Residuals:
     Min       1Q   Median       3Q      Max 
-12.9827  -2.8054  -0.1508   2.9443  14.4078 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 46.70968    0.68146   68.54   <2e-16 ***
X2           2.74318    0.02649  103.57   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.537 on 998 degrees of freedom
Multiple R-squared:  0.9149, Adjusted R-squared:  0.9148 
F-statistic: 1.073e+04 on 1 and 998 DF,  p-value: < 2.2e-16

得られているR2乗値("R-squared")は「0.91」であり、一般論として適合したモデルはデータにおけるバラツキをかなり良く説明していると言えます。その一方で、 Xの介入効果の「真の値」は与式1より「1」であるにもかかわらず、得られた Xの回帰係数("Estimate")は「2.74」とその真の介入効果からは2.7倍もかさ増しされた数値になっています。(ちなみに回帰係数の推定値の標準誤差自体は0.025と小さく数値上の推定精度はかなり高くなっています)

このように、回帰モデル全体としての適合が良好であることと、その回帰モデルが介入効果の適切な推定値をもたらすことは本質的には別の問題となります。げに恐ろしきは内生性(a.k.a. 交絡)です。【20170928追記:サンプルサイズと一致性と内生性と多重共線性の関係については次のスライドの108枚目からをご参照いただければと思います→『バックドア基準の入門』@統数研研究集会



さて。いよいよ、このケースで「恋しさ」と「せつなさ」と「心強さ」「残差」と「誤差」と「 X」のあいだに相関があるかどうかを見てみましょう!

まず、 Xと「残差」のプロットを以下に示します:

f:id:takehiko-i-hayashi:20170917140546p:plain:w275

 Xと残差」の間には相関はありません。(先ほども述べましたが、回帰直線の傾きは残差と Xの間に相関がないように選ばれているので、そもそもそういうものなのです)

一方、与式1から算出した「誤差」と、 Xの相関を見てみましょう。


f:id:takehiko-i-hayashi:20170917140720p:plain:w275

内生性、かくにん! Xと誤差」のプロットには明瞭な相関がみられました。

さて。この相関はなぜ生じているのでしょうか? ここでの「 Xと誤差」の相関は、以下のように両者がともに「 Bの関数」となっていることにより生じています。(以下にXの生成モデルと誤差の算出式を再掲)

 x_{i} = 2b_{i} + e_{i}
 誤差_{i} = y_{i} - x_{i} =  a_{i} + 2b_{i} + c_{i} + d_{i}

このように、説明変数と誤差が同じ要因(この例ではB)により影響を受けるとき*9に両者の間には相関が生じます。

少し別の言い方をすると、(データ生成メカニズムの観点から見たときに)「誤差項に影響を与える要因の集合(A, B, C, D)」と「Xに与える要因の集合(B, E)」に重複する部分があることによって内生性が生じている、とも言えます(下図/必要に応じて拡大などしていただければ幸いです)。【この状況については、Directed Acyclic Graph (DAG)(参照:KRSK_phsさんによる良解説記事)の観点から言うと「 X Yの間に閉じていないバックドアパスがある」、共変量のバランシングの観点から言うと「 Yを決定する要因である Bの値が Xの値に対してバランシングしていない」、潜在反応モデルとExchangabilityの観点からは「 Xの値に対して Yの潜在反応が非独立である」ことにより内生性が生じている、という説明の仕方がそれぞれできます。みなさま方におかれましては適宜お好みの説明の仕方をご採用いただければと思います!】


f:id:takehiko-i-hayashi:20170922063103p:plain

 Xと「誤差」が同じものを含んでいるならば、その間に相関が生じるのは直感的にも理解しやすいですよね。このように、「誤差」をモデルに含まれていない諸変数の関数として(敢えて決定論的な枠組みを用いて)眺めてみると、少し「説明変数と誤差の相関」というものが直感的に捉えやすくなるかもしれません。


さて。では、この状況のときの「残差」と「誤差」の分布を眺めてみましょう。

以前にみた内生性がないケースでは「残差」と「誤差」の分布はほぼ重なっていました。しかし、今回の内生性があるケースにおいては、回帰分析からの「残差(ピンク)」と与式1から求めた「誤差(水色)」の分布は以下のようにズレています:


f:id:takehiko-i-hayashi:20170918145217p:plain:w400

上記の誤差について「誤差 - 回帰モデルの切片の値」として定数項分の補正を行ってみると以下の図のようになります。


f:id:takehiko-i-hayashi:20170918145436p:plain:w400

前回の内生性がないケースとは異なり、今回の内生性があるケースでは、残差と誤差の分布は重なりません

また、ここで両者の分散に着目してみましょう。「残差」の分布のほうが分散が小さくなっています。これは、 Xがその生成メカニズムにおいて Bの成分を含んでいるため、本来は与式1内の Bの直接的な影響により生じている「 Yのバラツキ」の一部が、 Xによって”過剰”に説明されている*10ために生じています。その Xによる”過剰説明”によって、生成メカニズムから算出されている「誤差」の分散よりも、統計学的に得られた回帰モデルにおける「残差」の分散の方が小さくなっているわけです。

平均の違いに着目しても同じような「 Xによる過剰説明」が生じています。本来は与式1内の Bによって決まる「平均の差」の一部が、 Xによっても「過剰に説明」されてしまっているため、回帰モデルからの定数項(切片分)で補正を行っても、両者の分布の平均も依然ズレるいます。

以上のことはつまり、内生性がないときには統計的に得られた回帰モデルからの残差は「真の誤差(モデル内の説明変数以外による影響の総体)」を反映していると期待できるものの、その一方で、内生性があるときにはそれらの「残差」と「真の誤差」もズレるということになります。

問い:“内生変数”があれば必ず内生性が生じる?

さて。ここで素朴な疑問を考えてみましょう。 Xが「内生変数」である場合には、必ず「内生性」が生じるのでしょうか?

試しに「 X Eのみの関数」である場合を見ていきましょう。この場合にも Xは「内生変数」と言えます*11

 x_{i} = 10e_{i}
 y_{i} = x_{i} + a_{i} + 2b_{i} + c_{i} + d_{i}(式1)

 Yを生成する式は今までの例と同一の与式1です。今回は X Eのみの関数となっており、 Yを生成する式にはEは含まれていないことに注意してください。

このデータに対してYをXで回帰した回帰分析は以下のようになります。

f:id:takehiko-i-hayashi:20170918151915p:plain:w275

lm.res3 <- lm(Y3 ~ X3)
summary(lm.res3)
## 
## Call:
## lm(formula = Y3 ~ X3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -31.356  -7.180   0.016   7.369  31.698 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 89.68687    1.73408   51.72   <2e-16 ***
## X3           1.00638    0.03383   29.75   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.71 on 998 degrees of freedom
## Multiple R-squared:   0.47,  Adjusted R-squared:  0.4695 
## F-statistic:   885 on 1 and 998 DF,  p-value: < 2.2e-16

 Xの回帰係数(”Estimate”)の正解は予式1より「1」ですが、 n=1000とサンプルサイズも十分にあるので「1.00638」と高い精度で推定されています。つまり、 Xは内生変数ですが、今回のケースではバイアスは生じていません

 Xと「誤差」の相関をみてみましょう。


f:id:takehiko-i-hayashi:20170918152117p:plain:w275

この場合には、 Xと「誤差」の間には相関はありません。(ここには示しませんが、最初の「内生性がないケース」と同様に、「残差」と平均値を補正した「誤差」の分布も重なります)

上記の例が示すように、ややこしいですが、内生性が生じる上では「 Xが内生変数であること(システムを表す方程式の内部で決定されていること)」自体が本質的な要因であるわけではありません*12

より本質的なのは、 X」と「誤差項」を決定する要因の中に共通ものがあるかどうかということになるわけです(下図/必要に応じて拡大などしていただければ幸いです)*13

f:id:takehiko-i-hayashi:20170923073737p:plain

(やっと)まとめ

はい。今回もとても長くなってしまいました。いちおう所感をまとめておきます:

  • 内生性がないときは「誤差」と「残差」の分布は基本的に重なる(と期待できる)が*14、内生性があるときは「誤差」と「残差」は一般に重ならない*15
  • 回帰モデルが R^2値の観点から「良く適合している」ということと、そのモデルの説明変数の回帰係数がその「因果効果の良い推定値」かどうかは、本質的には別の問題である
  • 説明変数 Xが内生性をもつとき、「 Xの回帰係数」と「 Xへの介入効果の推定値」はズレる(バイアスが生じる)
  • 説明変数 Xが内生変数であっても、内生性をもつとは限らない。やれやれ。村(略)
  • 「誤差」をモデルに含まれていない諸要因の「関数」として敢えて決定論的な枠組みから眺めてみると、少し「説明変数と誤差の相関」というものが身近になるかも

-

  • けっきょくggplot2の使い方がやっぱり今ひとつ腑に落ちず自分の老いを感じた
  • ggplot2を使いこなすシャレオツな若者を見ると自分の老いを感じる
  • tidyverseを使いこなすシャレオツな若者を見ると自分の老いを感じる
  • Stanを使いこなすシャレオツな若者を見ると自分の老いを感じる
  • 最近までPythonの読みを「フィソン」だと思っていたことは絶対に秘密
  • あと環ROYのことも「かんろい」だと思ってた


はい。

本当は、これからさらに:

  • では、説明変数と残差に相関が出るのはどういうときなのか
  • 「説明変数と誤差の相関」と「共変量のバランシング」の関係

などについてものんびり眺めてみようと思っていたのですが、もう力尽きたので、ここに書くのはやめておきます。


というわけで今回の記事は終わりです。
今回も非常に長い記事をここまでお読みいただいた方、大変ありがとうございました!


#わたくしごとですが、来る10月1日から、弊研究所内でのルーティン的異動により所内企画部に半年間の時限付き出向となるため、暫くのあいだブログやSNSの稼働率はさらに大幅に低下すると思いますがどもすみません。

#RStudioで書いた今回の「Rコード+解説メモ」をこちらに置いておきますので、お好きな方は適宜どうぞ!→ html, Rmd


【参考情報など】

横浜国立大の黒木学先生による、因果関係を関数的関係の連なりとして捉える「構造的因果モデル」の教科書がさいきん出ました。いわゆるPearlの体系とRubinの体系が理論的にはシームレスであることも解説されています*16。この内容が日本語で読めることの幸せたるや!激オススメです!

構造的因果モデルの基礎

構造的因果モデルの基礎


黒木先生の本はちょとまだ難しいかな・・・という方は、こちらをどうぞ。わたくしと黒木先生の共著によるバックドア基準の入門的解説原稿も収録されています。

岩波データサイエンス Vol.3

岩波データサイエンス Vol.3


「因果効果を調べたい目的変数の挙動はそもそもどの共変量のどのような関数でありうるか」を粘り強く考える習慣や技量*17を身につけると、内生性に対する考察だけではなく、交互作用の理解や一般化可能性に関する考察もより明晰にできるようになっていきます。因果推論における交互作用の解説については、以下のKRSK_phsさんの記事が激オススメです。とても大事なことが分かりやすく説明されています!
krsk-phs.hatenablog.com


おまけ:たまきろい*18。ことの次第。ことばの因果的連関。凄い。

環ROY / ことの次第

*1:個人的には、ここの「信頼されるものとはなりえない」という全称的-ゼロイチ的な記述は強すぎるように感じます。一致推定量からのズレも実務上は「程度問題」だったりするので(構造的因果モデル的に言うとバックドアパスにも太いのと細いのがあるっていう話)、感度分析でもしてもう少し粘り強く「どれくらい信頼できるか」を考える方向を尊重してほしいように思ったりするところです

*2:わたくしの中での村上春樹のイメージは『世界の終わりとハードボイルド・ワンダーランド』くらいで止まっておりますが申し訳ありません

*3:誤差そのものは「差」を表す表現ですが、個々のデータにおける「誤差」ではなくデータ全体に含まれる「差の総体」を議論の対象とする場合には、「誤差」は実質的に「バラツキ」を指すと考えられるため、ここでは「偶然により生じるバラツキ」という表現を用いています

*4:つまり、単なる等式ではなく、生成メカニズムの表現としての構造方程式である

*5:ここで式1をYの式ではなく y_{i}の式として記述しているのは、誤差項がなく完全に決定論的に定まっていることを強調することを意図しました。ここはどう書くかちょっと迷いました

*6:この相関行列の作成に関しては http://statmodeling.hatenablog.com/entry/scatter-plot-matrix のコードを参考にさせていただきました。多謝でございます

*7:式1の上ではYはDの関数でもあるのですが、データ上では明瞭には見えてないですね。Dの分散が小さいからかもしれません

*8:あるいは、回帰分析において両者の分布は「ぜひとも一致しておいてくれないと本当は色々と困るという事情により一致するのが当たり前だという期待が広く共有されているかもしれません」と記述した方がもしかしたら事態の正確な記述に近いのかもしれません

*9:構造的因果モデル的にいうとXとYの間のバックドアパスが閉じていないとき

*10:介入効果の推定の観点からは”過剰”という意味です。単なる予測モデルとしての観点からは特に問題はありません

*11:以前にも述べましたが、本稿では(モデルを構造方程式で表現したときに) X自体が他の変数の関数となっているとき、 Xを内生変数と呼びます

*12:というか内生変数の議論における「システム」の境界って誰が決めるんですかね?構造的因果モデルの観点から見ると、d分離によって議論すべき「システム」の境界はDAGの構造から理論的に定まりうるのだけれど

*13:構造的因果モデルの用語を用いてより正確に述べると「閉じていないバックドアパスがあるかどうか」

*14:「誤差」の定義にもよるかもしれない

*15:偶然に重なることはあるかもだけど

*16:潜在反応モデルの構造的因果モデルの枠組みによる定式化の解説など

*17:変数間の関数関係のグラフィカルな表現がDAGとなります

*18:今年のつくばロックフェスでライブを観ました。ものすごくかっこよかった!!!

統数研での講演『バックドア基準入門』をアプします

おひさしぶりです。林岳彦です。夜、自宅で少しだけお酒を飲みたいときがありますよね。少しだけリラックスしたいけど酔っ払いたくはないみたいなときです。そんなとき、アサヒスーパードライの小さな135ml缶はたいへんありがたい存在です。しかし、この135ml缶の欠点は、お酒が少ししか飲めないことです。アズスーンアズ飲むや否やですぐ終わってしまうのです。実はもう飲む前に既に終わっているのではないかと思うほどです。ケンシロウに秘孔でも突かれたのかと、夜中に台所でぼくはきみ(135ml缶)に話しかけたくなります。「スーパードライの135ml缶」とはそんな存在です。

最近、その欠点を克服する方法を発見したのでお知らせします。スーパードライ135mlとポッカのキレートレモン155mlを1:1くらいで混ぜながらちびちび飲みます。これだとすぐ終わらずに飲めます。ビール感も消えてしまわず、爽やかなレモン感もあり、美味しいです。シャンパングラスなんかに入れるとうっすらとオシャレ感すらあったりします。ささやかだけど、逃げるは恥だが、役に立つライフハックです。


さて。


先月の2月17日に統計数理研究所の以下の研究集会『因果推論の基礎』で「バックドア基準」についての講演をする機会がありました。

リスク解析戦略研究センター研究集会「因果推論の基礎」 | 統計数理研究所

とくに秘匿すべき内容ではありませんので、このたび本講演のスライドをスライドシェアにアップロードいたしました。お好きな方はぜひご笑覧いただければと思います。

www.slideshare.net

本スライドの96枚目以降でも述べておりますが、「量的な解析を生業としつつも、質的なcausal modelも常に/すでに頭の中でぐるぐるしているような研究者の方」などには特にオススメかなと考えております。


また、今週の3月15日(水)に生態学会@早稲田大学の自由集会(企画者: 粕谷英一さん@九大 & 久保拓弥さん@北大)において、『生態学者のための統計的因果推論入門』という発表をいたします。

生態学データ解析 - 生態学会大会2017

以下に煽りプレビューを置いておきましたので、生態学会員などで、ご興味のある方はこちらも適宜ご笑覧いただければと思います。

www.slideshare.net


それでは、研究者のおのおの方におかれましては、抜かりなくフェスシーズンをお送りいただければと思います!

takehiko-i-hayashi.hatenablog.com


研究者ではないおのおの方におかれましても、抜かりなく美酒でもお飲みいただければと思います。スーパードライ135ml×ポッカのキレートレモン155ml、オススメです。


良い春を。

キクマルがタナキクマルに進化したような改訂版:『増補改訂版:伝わるデザインの基本』レビュー

こんにちは。林岳彦です。大昔にまだいたいけなカープ少年だったとき、よく分からぬまま村上龍の『走れ!タカハシ』を読んでしまいました。そしてそのオトナ(エロ)の世界になんだかショックを受けました。そんな大昔のことなども思い出しつつ、”龍”なんだからドラゴンズのことでも書いてりゃいいだろうが、と今さら龍に突っ込んだりしています。そして夜な夜な赤ワインを飲んでカンブリア宮殿に向かって乾杯しています。ラブ&ピース&カープ。そんな25年ぶりの優勝です。


さて。


少し前の話になりますが、球界の夜の盗塁王生態学会の気鋭の若手としても知られる千葉大学のタカハシ佑磨さんから、先々月の8月5日に発売された『増補改訂版:伝わるデザインの基本』というご著書をご恵贈いただきました。

伝わるデザインの基本 増補改訂版 よい資料を作るためのレイアウトのルール

伝わるデザインの基本 増補改訂版 よい資料を作るためのレイアウトのルール

せっかく頂いたということもあり、また、初版ももともと名著だったのですが、この増補改訂版においては、2012年(新人王)→2016年(最多勝)の野村祐輔のようにその輝きがさらに増しておりましたので、本ブログでも研究hacksの一環としてご紹介&オススメしようと思いました。

そもそもどういう本なのか

一言でいうと、この本は「デザイナーではない普通のビジネスマンや学生や研究者の人のためのデザインの本」になるかと思います。

別の言い方をすると、「ふだんの業務の中で見やすく理解しやすい資料をつくるためのデザインTips本」ともいえます。「特別な機会 a.k.a OMOTENASHIのためのアート的な美しいデザインTips」の本ではなく、あくまで「伝わるデザインの基本」についての本です。

どのような本なのかを把握する上では、以下のリンクから本書の初版に対するアマゾンレビューを見ていただくのが良いかと思います:

伝わるデザインの基本 よい資料を作るためのレイアウトのルール

伝わるデザインの基本 よい資料を作るためのレイアウトのルール

なんと・・・総数で55件のレビューがありながら星の平均がほぼ5に近いという、広島ファンのシュールストロム在米スカウトに対する評価に匹敵するほどのすごい高評価になっています。この評価ぶりにはなんというか正直とても妬ましく羨ましく感じるくらいです。こんちくしょうこのリア充タカハシめとても素晴らしいですね!

この本の良いところ

「デザイン本」としてのこの本の良いところは、あくまで「ふつうのビジネスマンや学生や研究者」の目線で書かれている点にあると思います。

たとえば、今まで出版されてきた本職のデザイナーによるデザイン本は「良いデザインのカタログ」的な本が多かったように思います。

一方、この『伝わるデザイン』では、とても日常的なPowerpointによるプレゼンスライド資料やWordでの報告資料のような「あるある」な形式が中心に扱われています。フォントの選び方やレイアウトの基本構造などなどについて、「悪い例」→「良い例」のデザイン改善Tipsもたくさん紹介されており、日々の業務の中でとても役に立つ内容になっています。


また、実際にデザイン改善Tipsに従って資料を修正するときの「WordやPowerpoint(やKeynote)での修正の仕方」が、懇切丁寧に説明されているのもこの本のとても良いところです。

わたくしもMS Office系のソフトの操作方法は「だいたい知っている」つもりでしたが、この本を読んで知らなかった(あるいは薄々知っていたけど面倒くさくて使わなかった)多くの便利ワザを日常的に使いこなせるようになり、効率的に資料を作成できるようになりました。ありがたや。

このような「MS Office系ソフトの操作方法」の丁寧な説明が充実しているのは、著者らが本職のデザイナーではないからなんだろなと思われます。(おそらく本職のデザイナーはWordやPowerpointを日々重用したりしてないですもんね)


さて。著者らが本職のデザイナーではない(著者らの本職は生態学者)ということで、先発で絶好調の高橋健をリリーフに回す達川カープ末期のような独善的かつ場当たり的なHow toが紹介されていたらどうしよう・・・とご心配される方もいるかもしれません。でもその心配はご無用です。他のデザイン論系の類書と比較してみても奇矯なことが書いてあるわけではありません。

著者らはプロの研究者らしく、基本となる先行研究をきちんと踏まえた上で、(プロのデザイナーではない)普通の人が陥りがちな問題点とその改善点について丁寧にまとめてくれています。その点は2016年の絶対的クローザーたる中崎翔太に対するような安心感をもって接していただいて良いかと思います。

今回の増補改訂版では何が変わったのか

さて。先々月の8月6日に出た今回の「増補改訂版」の話をしましょう。

結論から言うと、初版の『伝わるデザイン』もまるで「キクマルみたいに素晴らしい」ものでした。そしてそして。今回の増補改訂版はさらに「タナキクマルみたいに素晴らしい」です。鈴木誠也に言わせれば「最高」です。

具体的には何が変わったかと言うと、まずは、分量が増強されています。総ページ数を見ても前版173ページ→増補改訂版237ページと増えております。一方、分量は増えているのにもかかわらず、価格の方は税抜きで初版2180円→増補改訂版1980円と逆に安くなっています。掟破りの逆サソリです。これはまるで年俸20億円のオファーを蹴って4億円でカープに戻ってきた黒田博樹のような男気と言えるでしょう。

また内容も単に量が増えただけではなく、個々の解説もさらに深化しつつかつより丁寧なものになっており、技術的なTipsもさらに充実したものになっています(例えば、MS Office系のソフトで画像の背景の除去ができるとか、知らなかった)。フォント事情などもより最近の状況に対応した記述になっており、キクマルがタナキクマルになったと思ったら安部もなかなかいいじゃないですかと思わせるようなさらに隙のない充実した内容になっています。

その他の改善点として、内部のデザインがけっこう変わりました。ちょっと意外なことですが、今振り返ると、前版の『伝わるデザイン』は本文の地の文のフォントが細すぎるなど、少しデザイン的に不格好なところがありました(弘法も筆の誤りもしくは、前田智徳も7割は凡退する的なかんじですね)。今回の増補改訂版では内部のデザインも全体的に見直されており、さらに見やすく&分かりやすくなっています。移籍前はチャンスで引っ掛けてゲッツーが多かった新井さんが、帰ってきたらけっこう器用に右方向に打ちよるわい、みたいな円熟味を感じるところです。

まとめ

以上の内容を簡単にまとめます:



『増補改訂版:伝わるデザイン』は神ってる



はい。


ジョンソン!


というわけで、25年ぶりの優勝に沸き立つカープファンの方も、そうでない方も、社会人の方も、学生のかたも、研究者の方も、この機会に本書のご購入を検討されるのをオススメいたします。

伝わるデザインの基本 増補改訂版 よい資料を作るためのレイアウトのルール

伝わるデザインの基本 増補改訂版 よい資料を作るためのレイアウトのルール

きっと、今後のプレゼンスライド資料や報告書のレベルがまた一段上がるのではないかと思います。


追記:この本の元となった『伝わるデザイン』のweb版が以下にありますので、購入をご検討される方はまずは以下をご覧いただくと良いかもしれません



#あとは、わたくしといたしましては、風間フロンターレがタイトルをとってくれればもう思い残すことは何もありません(祈)

参考文献

↓本当に面白かった!カープファンならぜひ一度読んで欲しいです。名将ノムケンのことをもっと好きになること請け合い!

変わるしかなかった。

変わるしかなかった。

↓昭和カープから平成カープへの流れを振りつつ味わえます
広島カープの血脈

広島カープの血脈

↓新井さん
赤い心

赤い心

↓甘いもの好きのカワイイ前田と、そんな前田の知られざる真実の姿を引き出す石井琢朗のことも本当に好きにならざるをえない
過去にあらがう

過去にあらがう

岩波DS3の林・黒木原稿の補遺記事(予告)

岩波データサイエンスvol3に統計的因果推論に関する原稿を寄稿しました(林岳彦・黒木学『相関と因果と丸と矢印のはなし:はじめてのバックドア基準』)。

構造的因果グラフという難敵を相手に、「読者にとっての分かりやすさ」と「学問的正確さ」を極限まで両立させることを目指して、もう本当に精根尽き果てるまで頑張って執筆しました。この原稿が現在のわれわれの精一杯です。

(時間の関係で最終版の原稿がチェックできなかったこともあり、大きな誤植がないことを祈るばかりです)

#本原稿の執筆の際にはRcpp関係で有名なteuderさんに貴重なコメントをいただきましたのでこの場を借りて御礼申し上げます。

岩波データサイエンス Vol.3

岩波データサイエンス Vol.3

  • 作者: 岩波データサイエンス刊行委員会
  • 出版社/メーカー: 岩波書店
  • 発売日: 2016/06/10
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る

本当は岩波DS3本体の発売と同時に以下の補遺の方も発表できればよかったのですが、色々と立て込んでおり、これから五月雨式に発表していければと思っております。(すみません...)

補遺記事の予定:

(1)表現としての因果モデルについて
(2)Morgan and Winship (2015)の表紙の図の解説
(3)その他いろいろ

参考予定図書:

Causal Models: How People Think about the World and Its Alternatives

Causal Models: How People Think about the World and Its Alternatives

Counterfactuals and Causal Inference: Methods and Principles for Social Research (Analytical Methods for Social Research)

Counterfactuals and Causal Inference: Methods and Principles for Social Research (Analytical Methods for Social Research)