StatsBeginner: 初学者の統計学習ノート

文系出身で工学部(工学研究科)の教員をしてます。

「検定を繰り返すと第一種の過誤が増える」は間違い

 やや煽り気味のタイトルを付けてみましたが、そんな大層なことをいいたいわけではありません。
 以前、検定の繰り返しと多重比較についてというエントリを書いていたですが、こんなにくどくど書かなくてもいいよなと思ったので、改めて話を簡潔に整理しておきます。


 私が言いたいのは、「繰り返してはダメ」という言い方をしてしまうと、本質が見えなくなって何が問題なのかよく分からなくなるということです。たとえばこの記事に、「この検定を1回だけ行えば、通常は表が多く出たか少なく出たかを正しく判断できます。しかし、同じ検定を何度も繰り返すと、たまたま表が多く出たケースが出てくる可能性が高くなります。」と書かれているのですが、こういう、「繰り返すから悪い」式の説明はよくないと思います。


 心理学をやる人は必ず、頻度主義の統計学で「検定の繰り返し」や「多重比較」について習っていると思うのですが、いちばん分かりやすいのは分散分析の下位検定として、テューキーの多重比較検定やボンフェローニ補正をさせられるケースですね。
 たとえば、小学校にA・B・Cという3つのクラスがあって、それぞれのクラスのテストの成績が有意に異なっているかを検定するとします。そこで1要因3水準の分散分析によって「有意差あり」という結論が出ると、当然、A⇔B、B⇔C、A⇔Cのどこに差があるのかを知りたくなります。そのときに、A⇔B、B⇔C、A⇔Cのそれぞれについて個別にt検定をやると、これは検定の繰り返しにあたり、第1種の過誤(本当は受け容れるべき帰無仮説を棄却してしまう、つまり本当は有意ではないのに有意だと結論付けてしまう)をおかす危険性が増えてしまうので、やめなさいというわけです。しかしこの説明は、誤解を生みやすいです。


 まず、分散分析の下位検定の話の前に、もっと単純な検定の繰り返しの話を整理しておきましょう。たとえば、先ほどの記事で論じられている、コイントスの実験をイメージすると分かりやすいと思います。
 ある実験を行って有意水準5%で「統計的に有意です」と結論づけるのは、「本当は差がないとすれば20回に1回ぐらいの確率でしか見られないほど極端な差が観察されています」と判断することに等しいわけですが、これは逆に言えば、今回観察されたのは「本当は差がなくても20回に1回ぐらいは観察され得る程度の差である」ということです。つまり、実験を20回やれば、本当は差がなくても「有意差あり」と主張できてしまい、それはよくないということです。


 しかし、単に「検定を繰り返すのが悪い」と言われてしまうと、「じゃぁ、異なるテーマでいろんな実験をやって論文を何本も書くと、第1種の過誤をおかす確率が上がってしまうから悪いの?」というような無意味な議論が生じ得ます。もちろん、そんなことはありません。


 上の例の場合、本質的には何が悪いのかというと、有意差が得られなかった19回分のデータを無視して、有意差が得られた1回分のデータだけをみて結論付けようとしているのが悪いんです。「19回は有意差がなかったんですけど1回は有意差がありました」と報告しているなら、べつに問題はないと思います。
 普通は、20回実験を繰り返してデータが得られているのであれば、その20回分のデータを統合した分析をしなければならないということになります。統合にひと工夫必要な場合、「メタ分析」と呼ばれる一連のノウハウを勉強する必要があり、ボンフェローニ補正もそのノウハウの一種だと言えます。
 さらによく考えると、20回分のデータセットからランダムに1セットを選んでそれを分析するなら公平だと言えるのですが(そんな変なことは普通しませんが、別々の研究者がお互いを知らずに同じ実験をしている場合はこれに相当するでしょう)、有意差が得られたやつだけを選んで報告するとなると、自分の研究意図にとって都合のいいサンプルを恣意的に選んでいることになるので、そこに大きな問題があるわけです。同じ原理で、有意差が得られた論文だけ査読を通るようなシステムだと、全体として第一種の過誤が増えてしまうという「出版バイアス」の問題が生じるわけですね。


 分散分析の下位検定としての、多重比較の話に戻りましょう。たとえば、当初はクラスAの成績とクラスBの成績だけが得られていて、両者のあいだでt検定を行って「5%水準で有意差あり」と結論付けたあとに、クラスCでも同じテストが行われてA⇔CやB⇔Cの比較が可能になったとすると、当初のA⇔Bのt検定における「有意差あり」という結論は、間違っていたことになるのでしょうか?


 じつはそんなことはなくて、研究上の関心があくまで「A=B」という帰無仮説を棄却することにあるなら、依然としてA⇔Bのt検定をやっておけば問題はないんです。問題が生じるのは、ABCをあわせた分散分析に接続しようとする場合です。
 ABCをあわせた分散分析というのは、帰無仮説が「A=B=C」になっています。で、「A=B=C」という帰無仮説を棄却する目的でA⇔Bの検定を使うなら、ふつうのt検定ではいけません。というのも、A⇔B、B⇔C、A⇔Cのうち「少なくとも1つの組み合わせ」に有意差があれば「A=B=C」という仮説は棄却できてしまうので、棄却のハードルが下がってしまうことになるからです。


 つまり、問題は「検定を繰り返すこと」にあるわけではないし、「部分的な比較を行うこと」にあるわけでもない。検定対象となる帰無仮説が「A=B=C」であるときに、「A=B」という別の帰無仮説の検定結果をそのまま使ってしまうと、整合性がなくなるよというだけの話です。


(参考:このブログのおすすめ記事一覧はコチラ