Oliver (4) の日記

2005 年 05 月 26 日
午後 01:43

新しい全文検索エンジンを求めて

システムアップグレードの課題として大きく残っているのが検索エンジンの選定だ。MySQLの標準の全文検索エンジンでは日本語の単語の切り分けができないので、Slashcodeの標準のものは使えない。現状はSlashcodeとは完全に並行する形でNamazuを使っているが、辞書を鍛えてないこともあり「わかち書き」の不完全さにより、精度が低すぎてほとんど使えないものだ。そこで、新システムでは新しいエンジンを使って、より統合された検索システムを実装したい。ストーリー本文だけでなく、コメントや日記も検索対象になる予定だ。

要求仕様はこんな感じだ

  • 精度が高い。index付きgrep並の精度が欲しい。=> n-gram方式?
  • 複数のマシンでNFSを使ってindexを共有可能。検索は絶対必要。書き込みのきちんとした排他もできれば。
  • 統合できる様、Perl APIが欲しい
  • 代案としては、XML-RPCなどの軽いリモートAPIなラッパー
  • 検索対象の本文とメタデータをわけられ、メタデータも検索対象にできる

現在、候補としてあがっているエンジンは以下の通り:

各エンジンの特徴および試用結果はまた別のエントリに。他にも試しておくべきエンジンに関する知識やこれらのエンジンに関する経験があれば教えてください。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

処理中...