Namazu 2.0.13リリース
タレコミ by nasuda
nasuda 曰く、
Namazu Projectが日本語全文検索システムNamazu 2.0.13をリリースしました
現在同サイトにてダウンロード可能です。
実に一年七ヶ月ぶりのリリースとなる同ソフトですが今回のバージョンアップで
・セキュリティ面の強化
・対応文書形式を追加
・関連ツールのバーションアップに対応
・文書抽出制度の向上
・バグフィックス
・新機能の追加
が行なわれたとの事です。
なお今回のリリースには含まれていませんがWin32用Namazuは
現在Namazu2.0.13RC3がメーリングリスト上で公開されています。
こちらは上記のバージョンアップに加えて、インストーラーによる
インストールが可能になっています。Windowsユーザーで未体験の方
はこれを期に是非おためしを。
今回のバージョンアップの詳細として
1.セキュリティ面の強化
- サーバーへ無理な負荷を与える複雑な正規表現検索への対策
- バッファオーバーフローの可能性がある箇所を修正
2.新機能の追加
- --check-filesize オプションを追加し、タイムスタンプが同一でも
ファイルサイズが異なるファイルを更新対象とする機能を追加
3.対応文書形式を追加
- OpenOffice.org (Writer, Calc, Impress, Draw)文書
- 一太郎 ver.5〜13/2004 文書
(doccatなしで利用できるフィルタを追加)
- RTF文書
- Apache キャッシュファイル
- MP3ファイル
- PowerPoint スライドショー文書
4.関連ツールのバージョンアップに対応
- xpdf 2.02 以降に対応
- xpdf 3.00 の動作確認(PDF 1.5)
- wvWare 0.7.4〜1.0.0に対応
- Microsoft Office 2003 に対応
5.文書抽出精度の向上
- インデックス中のノイズを削減
・HTML_ATTRIBUTES タグ属性(ALT/SUMMARY/TITLE)の削除機能を追加
・文書に混ざる制御コードの削除を徹底
・e-mail に含まれる base64 コード等を除去
- HTML 文書でタグの属性(ALT/SUMMARY/TITLE)の重み付けを追加
- 平仮名のみの単語登録、送り仮名除去処理での不具合を解消
- Microsoft Office 文書内の半角カナの検索に対応
- Microsoft Word 文書の複数セクションに対応
- Adobe PDF 文書のプロパティに空データが設定されている場合に対応
- Macbinary ファイルを誤認してノイズが混ざる問題に対処
6.バグフィックス、セキュリティホールの修正
下記の問題をはじめ多数の修正をしました
- 最大ヒット数の判定を誤るバグ
- フレーズ検索が誤動作するバグ
- 正しく強調表示、強調表示禁止ができないバグ
- HTML 文書でスコア計算を誤ることのあるバグ
となっています。