StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

なぜ「p < .05」で「統計的に有意」なのか?――5%基準の由来について

 以前も書いたんですが、p値が0.05を下回るかどうかにとらわれる慣習を問題視する人が最近は増えてきていて、たしかにその理由はよく理解できる一方で、p値が過剰にバッシングされている気もします。しかしそんなことより、個人的には、なぜ統計的有意性の判定基準が多くの分野で慣例的に0.05(5%)になっているのかという、その由来のほうが気になります。


 帰無仮説が正しいときにそれを棄却してしまう(第一種の過誤と呼ばれる)危険率が5%未満であれば「統計的に有意」と言われるわけですけど、この5%という閾値に客観的な必然性がないことは誰でも分かりますね。しかし実際には様々な分野で、5%基準で検定結果を報告(あわせて1%基準や10%基準での有意性も報告されたりはする)している研究が多数存在するわけです。


 この5%という基準の由来について、フィッシャーが「20年に1回ぐらいは間違っても研究者として許されるだろ」と発言したのが始まりであるという説をよく聞きます。フィッシャーは植物学者なので実験を1年に1回というペースでしか行うことができず、「20回に1回(20年に1回)ぐらいは間違った結論を出しても許してほしいよな!」と言ったという話です。
 ただ、これは単なる都市伝説だったようです。


 「5%基準」の由来を調べた論文を以前読んだのですが、
 On the Origins of the .05 Level of Statistical Significance


 アブストラクトを適当に訳しておくと、

フィッシャーの『Statistical Methods for Research Workers』よりも昔の、統計や確率に関する文献を調査すると、確かに統計的有意性に関する"5%"基準を正式に唱えたのはフィッシャーが最初であることは確かなのだが、この考え方自体はもっと昔に遡ることが分かる。偶然性の仮説を棄却するための習慣的な基準は、世紀の変わり目ぐらいから徐々に形成されていった。統計的有意性に関する初期の言及は、「確率誤差」の観点から行われている。これら初期の習慣が、フィッシャーによって採用され言及されたのである。


 この論文によると、昔は統計的有意性の判断基準として「確率誤差(ここに解説があった。)3つ分」という基準がよく使われていたらしく、これは正規分布なら「標準偏差2つ分」ぐらいに相当し、だいたい95%ぐらいになる。これが「5%基準」の由来のようです。
 つまり、確率誤差3つ分(とか標準偏差2つ分)であれば計算しやすいというか、扱いやすいので、そのへんを基準にしてものを考える習慣が5%基準に転じたのであるということのようです。