sillywalkの日記: 全文検索エンジン「Ludia」が無償公開(タレコミ) 25
日記 by
sillywalk
ITProの記事によれば、NTTデータは10月11日、同社が開発した全文検索エンジン「Ludia」をLGPLにより無償公開したと発表しました。PostgreSQLに格納されたテキストデータの全文検索が可能で、「オープンソースソフトウエアでは日本語の全文検索に対応した高速・高精度なものが存在せず、データベースからデータを取り出し別のシステムを構築する必要があった。Ludiaは商用のデータベース管理ソフトに匹敵する速度と精度を備える」(NTTデータ)としています。Ludiaは、N-gramと形態素解析の2種類の全文検索インデックス方式をサポートし、またブーリアン検索、近傍位置検索、類似文書検索といった検索が可能で、検索結果の合致度を示す「スコア」も提供するそうです。
とりあえず使ってみました。 (スコア:5, 参考になる)
# pg_sennaはαバージョンということで避けてました(--;;
移行はとても簡単で
1. SennaとLudiaをコンパイル&インストール(必要ならMecabも)
2.インデックス関数を定義するSQLを既存DBに実行
3. インデックス作成(対象となるデータ型はTextのみなので必要に応じてキャストする必要あり)
4. Rails側でQuery書き換え
でコンパイル入れても1時間くらいで移行できました.
RailsのActsAsSearchableではHyperEstrailerのインデックスの作成はPostgresとは別管理になるので少々めんどくさかったのですが,このソリューションだとPostgres1つですむので心配事が一つ減りそうです.
ぶっちゃけSennaのPostgreSQLバインディング (スコア:2, 参考になる)
Re:ぶっちゃけSennaのPostgreSQLバインディング (スコア:3, 参考になる)
Senna/MySQL は MySQL へパッチを当ててリコンパイルが必要っぽいのに対し、Ludia は既存の PostgreSQL をそのまま使えるのがちょっとだけ利点かなと思いました。
Re:ぶっちゃけSennaのPostgreSQLバインディング (スコア:1)
NTTデータがリリースしたものとの違いは一体なんなんでしょうね?
# 全然関係ないが、TOMOYOって登録商標とってたのか…
――――――――――― バグは金也("Y"enBug)
Re:ぶっちゃけSennaのPostgreSQLバインディング (スコア:1, 参考になる)
(PostgreSQLのSQL文でSennaを使うだけだったら、pg_sennaがあるし。α版だけど…)
全文検索インデックスはTsearch2を少し修正したのかなぁ。昔、NTTがTsearch2とKakashiを使って似たようなことをしていた記憶が…。
プレス打つのはいいけど、ベースとなった技術がどこから派生したのかとかもきちんと伝えて欲しいですよね。それが礼儀だと思うし。
Lucene+RDBMS (スコア:1, 興味深い)
LuceneはJavaだからhogehogeなのはCバインディングやC++バインディングのを使えば良いし。
# 各バインディングがまともに使えるのかは知らないのでAC
Re:Lucene+RDBMS (スコア:0)
http://www.hibernate.org/hib_docs/annotations/reference/en/html/lucene.html [hibernate.org]
業務では使ったことは無いけど、ちょっとしたサンプルを使って動かした感じでは、面白かった
他人のふんどしでなんとやら (スコア:0)
>注1 全文検索インデックスの作成には、OSSの全文検索エンジンであるSennaを利用しています。
の1行書いてあるだけですか。
Sennaに何か還元してるのかな?
Re:他人のふんどしでなんとやら (スコア:2, すばらしい洞察)
宣伝で十分 (スコア:3, すばらしい洞察)
スラド民でもsenna辺りだと知らない人も多いと思うけど、それがこのストーリーにより一緒に宣伝してもらえている訳だ。
Re:他人のふんどしでなんとやら (スコア:1)
って事でSennaのページにPostgreSQLバインディングとしてLudiaへリンクを張っておきましょう。もちろん開発はNTTデータにお任せで。
Re:他人のふんどしでなんとやら (スコア:0)
# いい意味で
還元の義務? (スコア:0)
Re:還元の義務? (スコア:0)
「開発」って言ってるのが気になる。
検索エンジンを開発したわけでも、DBを開発したわけでもなさげ。
Re:他人のふんどしでなんとやら (スコア:0)
自社から開発者出したり寄付してますが何か?
Linuxの載るサーバ出してる大きな会社も
自社から開発者出したり寄付してますが何か?
Re:他人のふんどしでなんとやら (スコア:0)
Re:他人のふんどしでなんとやら (スコア:0)
Re:他人のふんどしでなんとやら (スコア:1, おもしろおかしい)
商標 (スコア:0)
Re:商標 (スコア:1, 興味深い)
# 商標が問題なんじゃなくて、商標ポリシーが問題となってたはず>Firefox [srad.jp]。
Re:商標 (スコア:0)
気にするのはパッケージを作ってるデベロッパーの方でない?