質問紙（リッカート尺度）のデータってふつうに分析して大丈夫なのか

　アンケート調査なんかで、

Q1. STAP細胞はあります。

□　とてもそう思う
□　そう思う
□　ややそう思う
□　どちらでもない
□　あまりそう思わない
□　そう思わない
□　全くそう思わない

　というような質問紙を作成してデータをとり、「とてもそう思う」を7点、「全くそう思わない」を1点としてスコア化するようなことをよくやりますね。心理学では*1「尺度開発」と言って、こういう質問紙を用いて個人の心理的な傾向を測定する「尺度」を作成し、その妥当性や信頼性を確かめるためのノウハウが、色々蓄積されています。多くの場合、１つの傾向を測定するために、5〜10個ぐらいの質問項目が並べられて、その平均値がスコアとして扱われます。

　こういう尺度は「リッカート尺度（Likert scales）」と呼ばれるんですが、リッカート尺度に果たして1点から7点のスコアを付けて、単純に足したり割ったりという処理をしていいんだろうか？というのは誰もが疑問に思うところです。
　Stevensの尺度水準というものがあって知ってる人も多いと思いますが、おそらく「順序尺度」だとは言っていいものの、間隔尺度として扱えるか（「全くそう思わない」と「そう思わない」の間隔が、他のところの間隔と同じかどうか）はわからないし、比率尺度として扱えるか（「とてもそう思う」は「全くそう思わない」の7倍強く思っているのか）も分からない。
　リッカート尺度の得点が順序尺度としてしか扱えないのであれば、平均値を求めるのも変だし、相関係数として最も一般的に使われているピアソンの積率相関係数なんかを計算しても意味ないというような話になってきます。

　しかしこの問題には長年に渡る論争の歴史があって、完全に決着しているわけではないんですが、経験に照らして「べつに間隔尺度として扱っといていい」という意見が強いからこそ、心理学等の研究でこういう手法が多様されてるわけですね。
そういう話を書いた文章を今日たまたま読みました。

Carifio, J., & Perla, R. (2008). Resolving the 50‐year debate around using and misusing Likert scales. Medical education, 42(12), 1150-1152.

　コメンタリーなので、証拠を挙げて論証されているというよりは評論的に「俺が正しい」みたいなことが書き連ねてある文章で、本当に議論の中身が気になる場合は、ここに引用されてる文献を見ていく必要があります。私はめんどくさいので読んでませんが、なんか論文書く時とかに必要性が発生したら確認しようと思います。

　有料なので以下要約しておきます。

　リッカート尺度（Likert scales）がどのように使われ、どのように分析されるべきなのかについては、50年以上にわたって議論されてきた。ありがちな指摘として、「リッカート尺度は順序尺度なので、ノンパラメトリックな手法で分析されるべき」というものがある。しかしノンパラメトリックな手法は検出力が低いので、相対的に弱い効果が見逃されてしまう可能性がある。
　歴史的には、ordinalist（順序尺度派）とintervalist（間隔尺度派）の間で論争が行われてきている。個々のLikert items（１個１個の質問）とは対照的に、それを束ねたLikert scalesについては、順序尺度ではなく間隔尺度とみなしてパワフルなパラメトリック分析な手法で分析されるべきという人もいれば、それに反対する人もいるのである。

　あるシミュレーション結果によると、F検定は、仮定が破られた場合でもかなり頑健（結果が歪まない）であることが明らかになっている（ただし等分散性の仮定についてはそうでもない）。これまでに行われたけっこう多くの研究が、リッカート尺度は間隔尺度として扱うことができるということを示しており、100mmの線上にマークさせるような方法（SD法みたいな？）だとほぼ比率尺度として扱うことすらできるようだ。
　特に、大雑把な経験則として言われているように、だいたい8項目以上を束ねた尺度であれば、間隔尺度として扱って問題ないというのが、これまでの実証研究から言えることだ。

　しかし50年以上にわたって、順序尺度派の意見も根強くあるのも確かだ。彼らにはけっこう誤解があるというか、理論的な議論にとらわれて経験的なデータを無視する傾向がある。我々がこれまで書いてきた論文を読んでもらえれば、順序尺度派の見解には誤解がたくさん含まれていること、そして複数のアイテムを束ねる場合に関しては間隔尺度として扱ってパラメトリックな分析を行うのは完全に適切であるということが理解されるはずだ。

　リッカート尺度を間隔尺度とみなして、平均や標準偏差を算出したり、分散分析を行ったり、相関係数を計算したり、相関に基づく様々な多変量解析（重回帰分析や因子分析）を行って、データや仮説をより強力で繊細な方法により分析するのは、完全に適切なことである。リッカート尺度を順序尺度として扱うと、こういう洗練された強力な分析手法の利用や、それによる強力で繊細な理解を妨げることになってしまう。

　要するに、理屈としてはStevensがいうように順序尺度と間隔尺度の間には違いがあって、リッカート尺度は厳密には順序尺度というべきなんだろうけど、少なくともいくつかの質問を束ねて平均を取る方法であれば、間隔尺度とみなして分析してもほとんど結果が歪まないことが経験的・実証的に明らかになっているのだから、間隔尺度として扱うことによる分析の柔軟性などのメリットを享受したほうがいいだろと。

*1:私は心理学専攻ではないけど知ったかぶっておくと