読者です 読者をやめる 読者になる 読者になる

Take a Risk:林岳彦の研究メモ

自らの研究に関連するエトセトラについてのメモ的ブログです。主にリスク学と統計学を扱っています。

フィッシャーの「統計的方法と科学的推論」が面白すぎる(その10)

今回もいわゆるフィデューシャル推測の節。

前回の続きから引用:

この推理様式の一例として、粒子を未知の頻度で互に完全に独立な時点で放射している放射能源を考えよう。あい続く二つの放射の間隔はランダムで指数分布
 df = \theta e^{-\theta x} dx
にしたがって分布しているだろう。ここで \thetaは単位時間あたりの平均放射数で未知数である。このような時間間隔は正確に測定可能であると考えよう。n回の測定記録からえられた間隔が
x_1, x_2, x_3, ..., x_n
であるとしよう。これらの観測値は、
 \theta=T
ただし
 T=n/X
で、Xは観測された時間間隔の和、という推定量から期待される値に十分よく一致して、一般仮説が採択されると仮定する。すると \thetaの値についてデータから許される確率命題をつくることだけが問題となる。

ここは観察される値であるX(時間間隔の和)とパラメータの値である \thetaの関係からの自然な展開として、この問題が「 \thetaについての確率命題をつくる」という逆確率*1の問題に帰着できることを述べているのかな?(ちょっと意図が良く分からない)

続きの引用:

n個の時間の観測値は独立であるから、元のデータから、任意の正の値 \thetaにたいする<数学的尤度>は
\theta^{n} e^{-\theta X}
に比例し、これは
\hat{\theta} = n/X
のとき最大となる。つまり、上で選んだ推定量Tは最尤推定量である。これはまた<十分推定量>でもある。つまり補助統計量をもたない徹底統計量*2である。なぜならば、Xの標本分布は
df=\theta^{n} e^{-\theta X} \frac{X^{n-1}}{(n-1)!}dX
であるが、これから求められる\thetaの尤度関数は元のデータから得られるものと正確に同一である。Xの分布もまた、すべての\thetaにたいして、すべての正の値の範囲で連続である。


実際、ある与えられた\thetaにたいするXの分布は、
\chi^{2}=2\theta X = 2n \frac{\theta}{T}
とおくと、これが自由度2nの\chi^{2}分布と等しくなる。この場合の\chi^{2}分布は正確であって、頻度の不一致にたいするピアソンの尺度のように近似ではない。したがって任意の確率Pを選び、自由度2nの\chi^{2}が頻度Pで超える値(すべてのPのたいして正確に計算できる値)を
\chi^{2}_{2n}(P)
で表すと、
\theta > \frac{T}{2n}\chi^{2}(P)
という命題が、選ばれたすべてのPにたいして、頻度Pで検出される。したがって、利用可能な観測値に対応する未知パラメータ\thetaの頻度分布が形式的に導かれたことになる。

「ここでパラメータの値である \theta」を「観察された値から得られる徹底統計量T」の関数として記述することができました。フィッシャー自身の表現によると「利用可能な観測値に対応する未知パラメータ\thetaの頻度分布が形式的に導かれた」ということになり、少なくとも形式的には「逆確率(分布)を求めることができた」ということになるかと思います。


この後に続くのはこの「形式的にもとめた逆確率(分布)」の「解釈」についての文章となっていきます。また次回に続きます。

*1:ここ、「逆確率」としれっと書いてしまってよいのかよく分かりませんが。少なくともフィッシャー自身は「逆確率」という言葉は使ってはいませんのでご注意を。ちなみに「逆確率」とは「原因についての確率」のこと。通常の頻度論的な確率解釈では「原因」は「確率」として解釈せず、あくまでも「固定された原因」から生じるものとしての「現象」の方を確率として考える。

*2:注:観測データから得られるパラメータについての情報をすべてふくんでいるような統計量