「美人ほど女の子を産む」はウソ？：A. Gelmanによる統計的欠陥の指摘のメモ

少し以前から「美人ほど女の子を産む」というタイトルの記事をネットでちらほら見かけておりました。
例えばこちらなど：

個人的にはこういった進化心理学的研究への興味はもちろん大アリなのですが、ちょっとこれは怪しそう？と思いしばらくスルーしていたした。そんな折、この話題がDavid Spigelhalter*1のブログ記事で取り上げられているのを見かけ、またAndrew Gelman *2がその手法について真っ向から批判しているらしい、ということを知ってちょっと真面目に読んでみました。

美人ほど女の子を出産する確率が高い？

この研究の元ネタの論文はこちらのようです。雑誌はJournal of Theoretical Biology誌（通称JTB）です*3。

Satoshi Kanazawa (2006) Journal of Theoretical Biology, Volume 244, Issue 1, 7 January 2007, Pages 133-140.
Beautiful parents have more daughters: A further implication of the generalized Trivers–Willard hypothesis (gTWH)

論文の骨子を簡単にまとめると：

The generalized Trivers-Willard hypothesis (gTWH仮説; Kanazawa 2005)は「メスよりもオスでの繁殖成功を増加させる遺伝的形質（heritable trait）をもつ親は、より多くの息子を持つ*4。オスよりもメスでの繁殖成功を増加させる遺伝的形質をもつ親は、より多くの娘を持つ*5」と考える。
gTWH仮説に従うと「魅力的な親（physically attractive parents）はより多くの娘を持つ」ことが予測される。
National Longitudinal Study of Adolescent Healthのデータ（中高生時代の"attractiveness"をここで測定）と彼らが後に生んだ子供の性別データを解析したところ、非常に魅力的な親は26%分だけ息子を持ちにくい（"Very attractive individuals are 26% less likely to have a son"）ことが分かった。

というものです。

ちなみに、National Longitudinal Study of Adolescent Healthのデータに含まれている総人数はn=20745人ですが、実質的なサンプル数（20745人のうち追跡可＆子持ち＆インタビュー可であった人数）はn=2972人となっています。

「魅力度（attractiveness）」の判定をどうやっているのかは気になるところですが、National Longitudinal Study of Adolescent Healthのデータ（おそらく解析対象となったヒトたちの中高生時代の顔写真が載っているもの）を用いて、「魅力度」をインタビューに基づき５段階にランク付けして判定しているようです*6。（"1=very unattractive", "2=unattractive", "3=about average", "4=attractive", "5=very attractive"）

上記の研究デザインのイメージをざっくりまとめると、中学・高校の卒業アルバム的なものをみて「魅力度（attractiveness）」をランク付けして、その5〜10年後に彼らの「子供の性比」をしらべて、その二つの変数間の統計学的関係を調べた、というかんじですね。その結果として「美人ほど女の子を産む」ということが明らかになった、というのが結論のようです。

Andrew Gelmanによる統計的誤りの指摘

さて、上記の論文*7について、A. GelmanがJTB編集部宛にその統計学的欠陥を指摘したレターを送っています。
Letter to the editors regarding some papers of Dr. Satoshi Kanazawa

A. Gelmanが上記の論文について指摘している内容を簡単にまとめると：

なぜか「"5=very attractive"」と「その他4つのカテゴリー（"1〜4"）」というまとめ方をした2つの部分の比較に基づく統計解析しかされていない
上記の2つの部分への分け方は恣意的にすぎるものであり、多重検定的な問題がある
より一般的な方法（多重比較を考慮した解析や回帰モデル）を用いると"魅力度"と"子の性比"の間に有意な関係はない

というところです。（＊「多重検定って何？」という方はこちら）

おそらく誰が見てもこれはA. Gelmanが全面的に正しいとしかいいようがないですね。元論文を読んでみても、確かに多重検定的に完全にアウトです。

また、Gelmanはこの件をテーマに自身のブログとAmerican Scientistにも記事（こちらからPDFをDL可）を書いています。特にAmerican Scientistの文章は一般向けに書かれている上に、かなり教訓に富んでいるのでぜひご一読をオススメいたします。

Kanazawa氏が具体的にどのような多重検定的な問題のある解析をしているかについては、このAmerican Scientistの記事のFig. 2を見るとかなり一目瞭然かと思います。また、今回のエントリー内では触れませんが、当該論文内およびメディアの伝播の中でeffect sizeの数字がどんどん水増しされていっているプロセスも悪い意味で非常に興味ぶかいものです。

このような一目瞭然な欠陥のある論文が、なぜJTB誌の査読をすり抜けてしまったのだろうか不思議がる方々も多いかと思います。その背景を説明しますと、「JTB誌の中心を担うような数理生態学者は概して*8数学にはすごく強いけどに統計にはすごく疎い*9」という事情があります。そのため、進化生態学インサイダーにとっては、数理生態学者の巣であるJTB誌でこの手の統計学的欠陥が見落とされるいうのも「さもありなん」という感じではあります。

【追記：また、このGelmanの編集部へのレターではKanazawa氏のJTBに掲載された過去の3つの論文（Kanazawa 2005, 2006, Kanazawa and Vandermassen 2005）についてもその統計手法の欠陥が指摘されています。これらの論文ではいわゆる社会学的な調査観察データの解析が行われているのですが、このような類の解析って生態学者はけっこう馴染みがないものなので、生態学者にとってこちらの統計学的手法の誤りを指摘するのは必ずしもイージーではないように思いました。特にこのレター内でGelmanが示す解決策（交絡要因の調整法）については、ちょっと一読ではちゃんと理解できませんでした。たぶん社会学系のヒトには常識的な内容なのだろうとは推測しますが。ここの辺りはけっこう勉強にもなりそうなので改めて記事にしてみたいと思います。】

炎上マーケティングを地で行くような：Satoshi Kanazawa氏

この論文の主著者であるSatoshi Kanazawa氏というのもなかなか一筋縄ではいかないヒトのようです。HPはこちらです：

Profile - Experts - Research and expertise - Home

ちなみに最新の論文（Kanazawa 2010 in Social psychology quarterly）のタイトルは「Why liberals and atheists are more intelligent.」（『なぜリベラルと無神論者はより知的なのか』）だそうです。いろんな意味でパねえっす。

Satoshi Kanazawa氏にはついて以下のような記事もありました（ご参考まで）：
［科学に佇む心と身体］ - FC2 BLOG パスワード認証
 ［科学に佇む心と身体］ - FC2 BLOG パスワード認証
 書評「女が男を厳しく選ぶ理由」 - shorebird 進化心理学中心の書評など

尚、Kanazawa氏はGelmanからの統計的欠陥の指摘に対して全くリプライせずに、何事もなかったかのようにそのまま持論を一般書などで意気揚々と開陳しつづけているようです*10。太いなー。

論文ゼミなどにオススメかも：多重比較の問題点の生きた教材として

さて、このSatoshi Kanazawa氏に関する一連の話題についての雑感は一言でいってしまえば「なんだかなあ」という感じです。

しかしながら、「多重比較におけるdo's and don'ts」について学生などに教える際の場合の生きた教材としてはリアルかつキャッチーなので良いかもしれません。統計学を学ぶ重要性に対してピンときていない若い院生などには今回の例を紹介し、「多重比較をちゃんと考えないとゲルマン（のレター）がくるぞー」などと脅しておくときっと効果的でしょう。

また、やや別件になりますが、この件に関してのGelmanのAmerican Scientistの記事での「small effect」の検出に関する議論（"type-M" and "type-S" error）は、実務上かなり重要であるように思いました。特に「small effectを不十分なサンプル数の証拠に基づき検出しようとすると、実際よりもはるかに大きなeffectを間違って検出してしまいがち」という問題は、リスクの解析においても本当に気をつけなきゃいけないよなーと思いました。

多重比較およびsmall effectに付随する問題については、また改めてRでの例示なども絡めながらまとめてみたいと思います。

【追記20110209】多重比較についてはまとめてみました：無から有（意差）を生む：多重比較でウソをつく方法 - Take a Risk：林岳彦の研究メモ