1,000万語分の日本語コーパス公開
タレコミ by ultrageek
ultrageek 曰く、
INTERNET Watchの記事によれば、 国立国語研究所が、「現代日本語書き言葉均衡コーパス」のデータの一部にあたる 約1,000万語分を試験公開したそうだ。 公開されたデータは、政府刊行白書とYahoo!知恵袋の2種類を元にしたもの。 検索デモをツンツンとやってみたが、 書き言葉がズラズラでてきて面白いのだが、何か利用法はあるだろうか。