zokkonの日記: コーパスを自作する意味(1)
日記 by
zokkon
コーパスというのは,狭い意味では「電子化された大規模な言語資料」を指す。 最近では,NHK教育テレビで放映中の『100語でスタート!英会話』を投野由紀夫先生が担当して,番組中に「コーパスくん」というキャラクターを登場させたり,三省堂の『ウィズダム英和辞典』が「日本で初めてコーパスを本格的に導入した」とうたって発行されたり,といった事例があり,かなり一般にも浸透してきたのではないかと感じる。
ちなみに,『ウィズダム英和辞典』で使われた三省堂コーパスについて,同社はウェブサイトで次のように述べている。
三省堂学習コーパスは[中略]新聞、雑誌、カタログ、インタビューなどから、日常生活を意識した平易な文体で書かれたものを中心に、幅広くデータを収集しており、数千万語の規模になっています。
規模やソースについては何も公開していないに等しい。もちろんそういった秘密主義に関して文句を言うべきじゃないと思うが,その設計のポリシーや構築にかかった期間などについては,聞けるものなら聞いてみたい。「数千万語」というのは微妙な言い回しだが,意外に短期間で作ったのではないかという気がする。
なお,今世界中で使われているコーパスの特徴については,『ウィズダム』の編者である井上永幸先生が「コーパス言語学:主なコーパス」という文書にまとめて公開している。
コーパスを自作する意味(1) More ログイン