zokkonの日記: 私家版コーパスの作り方(1)
日記 by
zokkon
本来,コーパスは資料の代表性などを考慮して慎重に設計しなければならないのだが,研究者や学校の先生が自己資料として手作りすることもあるわけで,拡張性を考えて柔軟な構造にしておけばよいと思う。
これまでよくあったタイプの,コンピュータを活用した言語研究においては,紙のテキストをデータ化するという作業を行なうのが一般的だが,これにかかる時間と労力というコストが過大で,学校の先生方が片手間にやるのはつらいと思う。
しかし今や,ウェブだけでもかなりの情報が入手できる。
ウェブ上の情報は信頼性が落ちるという見方もあるが,こと「時事英語」に限っては,新聞社や通信社のサイトで公開されている記事を使えば,紙の英字新聞を利用するのと変わらないだろう。
そこで,時事英語コーパスを自作する手順を考えてみた。
次のようなサイトが利用できるだろう。
- U.S. News and World Report
- The Washington Post
- USA Today
- CNN Transcript
- ABC News
- San Jose Mercury
- Reuters
しかし,新聞社とか通信社のサイトのコンテンツをいちいち巡回してその都度保存するのは非常に面倒なので,このあたりを自動化したい。そこで,自動で巡回してサイト内のファイルを根こそぎダウンロードしたのち,整形してテキストファイルとして保存するという方法が考えられる。ぼくが入手したのは
wwgetallというもの。
しかし,問題点がいくつかある。このプログラムに限らないが,
- サーバーにかかる負荷が大きいために,管理者には嫌がられるらしい
- ページを動的に生成するサイトだとファイルとして取得できない(?)
といったところだ。後者は工夫すればどうにかなるものなんだろうか。
たとえばフィナンシャルタイムズなんか,slash と同じ mod_perl を使っているんだけど,これはとってこれない。
私家版コーパスの作り方(1) More ログイン