nasudaの日記: Namazu 2.0.17 リリース 17
日記 by
nasuda
Namazu Projectは日本語全文検索システムNamazu 2.0.17のリリースを発表した。
今回はVista対応を含めたバージョンアップのようだが、手元にVista環境の整っている諸氏は試してみてはいかがだろう?
なお詳細は以下の通り。
1.セキュリティ面の強化
(緊急度:低)
- テンプレートをカスタマイズした場合にバッファオーバーフローを起こす可能性があった箇所を修正
- フレーズ検索で free したメモリにアクセスする不具合を修正
- 「"」「/」で検索すると強調表示で無限ループに入るバグを修正
- フィールド検索で正規表現検索を無効にできないバグを修正(REGEX_SEARCH)
2.新環境への対応(Windows版)
- Microsoft Windows Vista 対応
- Microsoft Office 2007 対応(OLEコントロールフィルタ)
- Microsoft Visio 2000, Visio 2007 対応(OLEコントロールフィルタ)
3.対応文書形式の追加
- Microsoft Office 2007 形式の Word, Excel, PowerPoint ファイルに対応(OLEコントロールフィルタ)
- Microsoft Office Open XML 形式のファイルに対応(filter/msofficexml.pl は実験的)
- Microsoft Viso XML 形式 .vdx ファイル(filter/visio.pl は実験的)
- OutlookExpress, Thunderbird 等のメールが保存する .eml ファイル
4.性能向上
- 従来より高速な File-MMagic 1.27 を同梱
- 削除文書が多いインデックスで HIT 数が多い場合に速度が落ちる不具合を修正
- 検索時の内部データのコピー回数を減らし最適化
5.文書抽出精度の向上
- メール文書:base64/qencode でエンコーディングされた日本語テキストに対応(filter/mailnews.pl)
- メール文書:マルチパートの途中で切れているメールに対応(filter/mailnews.pl)
- html文書: タグ処理の不具合を修正(filter/html.pl)
- html文書:XHTML 形式 META タグ "/>" 処理を修正(filter/html.pl)
- 一太郎5,6文書:文字化けの原因になる機種依存文字、外字を除去(filter/taro56.pl)
6.新機能
- インデックスチェック用ツール nmzchkw.pl を同梱(misc)
7.バグフィックス
下記の他多数の不具合を修正
[mknmz関係]
- ファイルサイズが$FILE_SIZE_MAXを超えた場合のエラーメッセージが不適切
- --update オプションで指定したディレクトリの NMZ.status の内容が読み取れない場合の不具合
- MinGw で未サポートの SIGALRM を signal に使っていることと、alarmをSetTimer としている不具合
- パス区切り文字を含まないファイル名がタイトルに入らない不具合
- 一太郎5,6文書:ある種の罫線が含まれると無限ループに入る不具合(filter/taro56.pl)
- zipファイル処理時にテンポラリファイルが残るバグ(filter/zip.pl)
- MacOS + gettext 0.14.2 の環境で、システムの言語設定が優先される不具合
- --debug オプション指定時に PDF ファイルがプロテクト付きと誤認される不具合(filter/pdf.pl)
- MP3-Info の新しいバージョン 1.21 に対応(filter/mp3.pl)
[namazu/namazu.cgi関係]
- Windows版で強調表示されない場合がある不具合
- 部分一致検索の結果が強調表示されない不具合
- HTMLエンコードされるキーワードが強調されない不具合
- XHTML出力時に閉じタグを "/>" と出力する不具合(" />" に変更)
- whence, max に空の値を設定した場合は、デフォルト値を使うように修正
[ユーティリティ関係]
- gcnmz, nmzmerge のログでのカンマ区切りが、mknmz と異なる不具合
[その他]
- 一部環境で make clean に失敗する不具合
詳細へのリンク (スコア:2, 参考になる)
人気がない理由は (スコア:1, 興味深い)
泥臭いイメージとか、あと寄せ集めっぽいところとか。
NamazuはITMediaや窓の杜で使われてたりしますが、
イメージ的にはSennaの方がいいような。
# 悪口なのでAC
不満たらたら (スコア:3, 興味深い)
(どうも場合によっては端から端までseekするので、不用意に$FILE_SIZE_MAXを大きくするととてつもなく時間がかかる)
無論、NamazuよりもHyperEstraierの方がすべての面で優れてるという話じゃなくて、単なるユーザーとしては自分の要望によりマッチしてる方を選択する、というだけの話。File::MMagicを利用したフィルタの自動判別とアーカイブ内のファイルも検索対象にできる点は捨てがたいんですけどね。
Re:人気がない理由は (スコア:2, おもしろおかしい)
あっという間にイメージは好転しそう。
#萌え系はやめて下さい。
人気がないというより (スコア:1, すばらしい洞察)
それより最近はGoogle検索を利用するケースが多いかもしれないですね。
Namazuといえば、Namazuを利用しているのに、該当文字列を消去して運用しているサイト、なんてのがちらほらありました(今でもあります)。
Re:人気がないというより (スコア:0)
やっぱり人気がないからでは?
あるはずのものが検索で引っかからないことが多いので、選べるときにあえてNamazuを選択することはないですね。
Re:人気がないというより (スコア:0)
ここってどこですか? (スコア:0)
/.-JにはHyperEstraier [sourceforge.net]を使った全文検索 [srad.jp]と、slashcode自身が持ってる検索機能 [srad.jp]しかありませんけど。
Re:ここってどこですか? (スコア:2, すばらしい洞察)
これがまた使い物にならなくてな(Namazuではなく運営陣が悪いんだと思うが)
猫も杓子もNamazuの頃は、そういうダメな例(サイト)が沢山あって
なんとなく「Namazuはイマイチだなぁ」という認識は皆してたんじゃないかな
それは必ずしもNamazuが悪いわけじゃなく、Namazuくらいしか選択肢がなかったから
まともに使えない人もNamazuを使ってたっていう冤罪のような気もするけどな
Re:ここってどこですか? (スコア:0)
ここの検索を初めて使った時に全然ダメで、Namazuの導入でマシなったかと思ったが結局ダメで、落ち着いた先がGoogleのsite:slashdot.jp指定。
Re:ここってどこですか? (スコア:0)
Re:ここってどこですか? (スコア:0)
Slashcode内蔵の検索だったかな、日本語がロクに通らない全く意味のないものでした。
その後の経緯には全くもって同意
Re:人気がないというより (スコア:0)
いつ自分が書いたのか思い出せなくなったTipsの検索が
目的です。
一応これで間に合ってるので、当面は黙ってお世話に
なる予定です。
自分以外は、ほとんど誰も使ってませんが。
# そのうちHyper Estraierに変えるかも
ちょこっとセキュアにと、namazu.cgiのファイル名を
変えています(実運用には問題なし)。
それでもなぜかGooglebotなどが"namazu.cgi"で何か
検索しようとして、何度も失敗を続けている様子が
ログに残っていたりします。
> "GET /cgi-bin/namazu.cgi?query=バス号&whence=0
> &max=20&result=norm
Re:人気がないというより (スコア:0)
Mayaという3D CGを扱うソフトがあります。それのあるバージョンの日本語マニュアルCD-ROMに、Namazuによる検索機能がついていました。ちょっと驚きましたよ。
(AliasってAutodeskに買収されてたんだ…。知らなかった)
Re:人気がない理由は (スコア:0)
Re:人気がない理由は (スコア:0)