今日、知り合いのFacebookで、以下の記事がシェアされていました。
「生データの保存大切」 山中教授、STAP問題で指摘(1/2ページ) - 産経ニュース
内容はタイトルのまんまで、特に思うこともないんですが、これ読んで、ある研究を思い出しました。
Vines, T. H., et al. (2014). The availability of research data declines rapidly with article age. Current Biology, 24(1), pp.94-97.
http://www.cell.com/current-biology/abstract/S0960-9822(13)01400-0
↑のリンクから手に入る(たぶん有料。私は大学のアカウントがあるのでタダみれる。)論文なんですが、簡単にいうと「他人が書いた学術論文の元データって、どれぐらい入手可能なの?」ってのを調べたらしいです。
22年前から2年前(2013年の調査なので1991年から2011年)までに発表された516本の生物学論文(植物や動物の形態にかんするデータを用いて判別分析を行っているもの)について、生データが入手可能かどうかを調査したとのこと。
方法としては、著者のメアドを調べて(論文に書いてあるかもしくは検索して調べた)、メールで「データある?」「それもらえる?」と訊いたらしいです。
以下、この調査の概要。
- 少なくとも1つのメールアドレスが有効かどうか、メアドが有効な場合に返事がもらえるかどうか、返事があったときにデータがどうなってるか教えてもらえるかどうか、データの状態がわかる場合にデータが生きてる(提供可能か、もしくは提供は不可だがデータは残ってる)かどうかを集計した。
- また、論文の「年齢」とデータの入手可能性の関係についてロジスティック回帰分析を行った。
- オッズ比をみると、論文に使われた元データの生存率(オッズ)は、毎年17%の勢いで低下していくことがわかった。(1年後にオッズが0.83倍になるということ。)
- メアドの生存率(オッズ)は、毎年7%ずつ下がっていく。
- データが入手不可能になる主な原因は、著者のメールアドレスが変わってしまうことと、記録媒体が古くなって使えなくなること。フロッピーディスクにしか入ってなかったりとか。
- 20年以上経つと、元データが入手可能な論文は1割もない。
- 生データをアーカイブする規則を作らないとヤバイと思われる。
- すでに、データの提出を求めてアーカイブするルールにしているジャーナルもいくつかある。
- 数字のまとめ(1991年〜2011年の研究について2013年に調査した時点での数字)
- メールアドレスが不明または無効・・・25%
- メールに返事がない・・・38%
- 返事はあったがデータがどうなったかは不明・・・6%
- データが無くなったと言ってる・・・7%
- データはあるが提供できない・・・4%
- データを提供してもらえた・・・19%
- 上記2つを合わせると、データが利用可能な論文は23%
どうでもいいですが、メールの一斉送信のスクリプトもRで書いたらしいです。
調査内容をサマった紹介記事は↓こちら。
The Vast Majority of Raw Data From Old Scientific Studies May Now Be Missing | Science | Smithsonian
Vines, T., Albert, A., Andrew, R., Débarre, F., Bock, D., Franklin, M., Gilbert, K., Moore, J., Renaut, S., & Rennison, D. (2014). The Availability of Research Data Declines Rapidly with Article Age Current Biology, 24 (1), 94-97 DOI: 10.1016/j.cub.2013.11.014