bluecrowの日記: 【研究】Wikipediaをコーパスとした全自動テキスト分類【成果物】
日記 by
bluecrow
Wikipediaのオリジナル(XML形式で配布されている)をコーパスに用いて、なるべく簡単にテキスト自動分類を行う。
この研究に技術的に真新しいことは何も出てこない。この研究の意義は再現性であり、追試性であり、実用性である。実装コストの低さである。
まずWikipedia(XML)をテキストファイルに落とし込む。この際、ブラケットに囲まれたリンク情報を除く装飾情報および添付ファイルは削除しておく。
次にWikipediaの約100件のカテゴリに対応する起点ページからリンクを2回まで辿ることで、そのカテゴリに属するページの集合(クラスタ)を取り出す。
このページ集合を元に、インデックスを作り、ページを形態素解析エンジンMeCabで分かち書きする。
そして、前述の処理で作られたインデックスと分かち書きされたファイルを元に、ナイーブベイズアルゴリズム(Algorithm::NaiveBayes)によって
各記事のカテゴリを学習し、記録する。
結果として、引数で与えたテキストは自動的にカテゴリに分類される。そこに人手は介在しておらず、それゆえにこのシステムは
Wikipediaコーパスに基づくテキスト自動分類システムとして位置付けられるであろう。
(以下略)
20130120_bayes8.zip (11KB)
更新履歴
2013/01/20
-c オプションでbayes.dbファイルを削除、再作成するように変更
-b オプションでカテゴリファイルを指定可能に変更
【研究】Wikipediaをコーパスとした全自動テキスト分類【成果物】 More ログイン