StatsBeginner: 初学者の統計学習ノート

統計学およびR、Pythonでのプログラミングの勉強の過程をメモっていくノート。たまにMacの話題。

なんか凄そうな日英対訳コーパスを発見

LASER/tasks/WikiMatrix at main · facebookresearch/LASER · GitHub
Wikipediaから作られた多言語の対訳データで、英語と日本語の組み合わせをみると85万1000件ある。
これは中身も少し整理してみたが、結構品質は高い。明らかに変なデータも混じっていたり、日本語と英語が対応していないものもあったりするが、全体としては綺麗だと思う。
公式のGitHubによると、両言語の意味の一致度を機械的に判定したスコアがついてて、多くの言語において1.04ぐらいがバランスがいい(一致度とサンプルの多様性を考慮して)と書いてあった。私は、1.45にしてから、日本語と英語の文字量の比率が極端なものや、日本文が句点で終わらないもの、英文が大文字で始まらないものを除いて、40数万件を使おうかなと思う。


日本語SNLI(JSNLI)データセット - LANGUAGE MEDIA PROCESSING LAB
スタンフォード大がつくっている、自然言語処理による論理的な推論のベンチマークに使われるデータを日本語に機械翻訳したものらしいので、野生の対訳データではない。機械翻訳した後、BLEUスコアの閾値でフィルタリングしたデータが533,005件あって、これで自然言語タスクをやらせたら90%以上の性能があったと書いてある。
人力で訳を確認したものもあるがそれは数千件(devデータとして作られている)。
こっちは、本家SNLIのデータとこのJSNLIのデータを紐付ける作業からやらないといけなくて、加工がけっこうたいへんそうな気がする。


先日のエントリで私が構築した、7つのコーパスを組み合わせた混合コーパスは、色々処理して絞り込んだ結果128万件ぐらいなんですが、もし上記2つのコーパスが品質的に「全て使って大丈夫」そうだったら、これらを追加することで200万件規模になることになり、翻訳の精度がさらに上がりそうなので、あとで試そうと思います。