Webの完全インデックス化を目指すP2P技術 19
ストーリー by wakatono
仮想的な巨大検索エンジン構築プロジェクト 部門より
仮想的な巨大検索エンジン構築プロジェクト 部門より
von_yosukeyan 曰く,"ImpressWatchの記事によると、ジョージア大学の研究者らは、これまで数週間単位は必要なサーチエンジンのインデックス更新周期をわずか数日に短縮化させるHyperbeeとよばれる検索エンジン技術を開発中とのこと。Hyperbeeは、SETI@homeやRC64などのように、協力者にコンピューターにスクリーンセーバーとして稼動するP2P型インデックス作成ソフトをインストールしてもらい、全世界で同時にWebのインデックスを作成するのだとか。Hyperbee自体はまだサービスを開始しておらず、ボランティアベースの協力者を募っている段階なのだそうだが、手持ちのマシーンのパワーが有り余ってる人は参加してみてはいかが?"
我こそはと思わん人は協力を。
自家用ロボットが家庭訪問するよりも… (スコア:3, 興味深い)
各Webサーバが保持するコンテンツのインデックスとダイジェストを、検索サーバ間で流通させとけばいいんじゃないのかな。
決めなきゃならないもの…
・インデックス+ダイジェストの流通フォーマット
・検索サーバとWebサーバのやりとり方法
まずは、Apacheのモジュールとしてnamazuを組み入れるところから実装をはじめるとか。
検索サーバ=Webサーバにして、分散検索サービスを構築すべきかな。いや、検索サーバーは、世界中のWebサーバーから送られてくるインデックス+ダイジェストをまとめあげて、ユーザからの検索要求にこたえるべきか。
Re:自家用ロボットが家庭訪問するよりも… (スコア:1)
SOAPとやらで投げるとか、するんでしょうか?
ん。DNSならぬDomainNaiyouServiceとか?
Re:自家用ロボットが家庭訪問するよりも… (スコア:1)
それならロボットで無駄にカウンタ回らないしー。
とか一瞬お気楽に思ったんですけど、
そうするとgoogleみたいな効率の良い検索って
なかなか出来ないんじゃないでしょうか。
するとやっぱり検索サーバはwebサーバからのインデクスを
得る形の方が良いようだけど、それでも効率のよい検索が
可能な仕組を考えねばいけませんよねぇ。
しかも後にそれより良い検索方法が考案された場合には、
それを実現するには検索サーバを改良するだけじゃなくて
世界中のWebサーバを書き換えなきゃならんのでしょうか。
ちょっと気が重いかも。
プラガブルサーバサイド検索エージェント (スコア:1)
インデックス流通に関しては、検索方法に影響されないほど普遍的なプロトコルを用意するってのが第1段階。
第2世代は、インデックスから情報を検索するアルゴリズムも、インデックスとともに流通するというのでいいんじゃないかな。
P2Pでインデックス作成? (スコア:2, すばらしい洞察)
あっという間に、帯域を食いつぶしそう・・・・・。
Re:P2Pでインデックス作成? (スコア:1)
重めのCGIなんぞを今まで以上にロボットに訪問されたら
それだけで痛いかも。
#ロボット拒否してるなら関係ないが、それはこのネタにおいては考えても意味がないんで無視
うーん。うちのTikiのロボット拒否を解除しようと思っていたのにのに。(え?今心配するのは杞憂だって?)
あ。検索されること自体は、(世間の平均的評価(笑)よりは)好意的に捉えています俺。
ただ、そのせいでサイトが手もつけられないほど重くなっちゃうんじゃ
本末転倒なんで、どうしたものかと…
ロボット対策 (スコア:1)
ロボットでアクセスカウンタが上がっても意味無いしねぇ。
Re:ロボット対策 (スコア:1)
WEB広告業界では、これは問題視され出しているようです。
所によっては、ちゃんとロボットを排除するとクリックレートが
いきなりとんでもないことに……。
#つまり誰もクリックしてないってばれちゃうって事。
日本語どうするんだろう? (スコア:1)
どっかのACさんがどうせ日本語検索できないだろうからステ、
みたいなこと書いていたはずですが
自分も気になったのでメール送ってみました。
一応「日本語で検索できるの? 日本のコンテンツも対象に
すんの、どうなの?」みたいなこと書いたハズなので
返答があれば結果報告します。
って、そもそもFAQにそういうこと書いておいてくれれば
いいのにさ。
Re:日本語どうするんだろう? (スコア:1)
やっぱり日本語の扱い方分からんそうで
現状では英語だけみたい。
ACさんの予想通りなので日本人にメリットがあまりない分、
ちょっと参加しにくいかも知れませんね。
でもいずれ外国語にも対応させたいと思ってるそうです。
日本語と検索に関するあれこれをメールすれば
早々対応してくれるのかもしれません。
そんなわけで自分も知ってる限りでメール送ってみます。
これP2Pなんでしょうか? (スコア:1)
分散ロボットのクライアントは仕事をサーバからもらって 結果をサーバへ返すんですよね?
ピア同士で通信してないならP2Pじゃないと 思うんですけど。
あ、もちろんこれは用語についての揚げ足取りに 過ぎなくて、システムの意義については触れてません。
(_ _)
まさかプロキシ使わないですよね (スコア:1)
ベータユーザになってみた方に質問。
いらぬ心配かとは思うのですが、クライアントはプロキシサーバを使わないようにできてますでしょうか?
広い範囲を1回ずつ舐めるロボットがプロキシキャッシュを 使ってくれるとCache Pollutionを引き起こしてくれるわけで、もしそうなっていたら気持ち悪いなあと。
あと、サイトやプロバイダによってはトランスペアレントプロキシが噛んでいるところもあるでしょうから、参加にあたってはその辺にも要注意かなと。
ジョージア大じゃなくて (スコア:0)
本当に大丈夫? (スコア:0)
この「インスト-ルするソフト」に、なにかシステムに悪さをするものとか入ってないよね。やっぱオープンソースでいただかないと、イマイチ信用できない。大学はM$とグルだったとか、そういうヤバいお話でなければ、乗ってもいいが。
話はそんなに単純じゃない (スコア:3, 興味深い)
OPL準拠のライセンスにすると、そこから不正な結果を
生成する派生物が配布されてしまう危険が伴います。また
解析アルゴリズムを公開してしまうと同じプロジェクトを
そっくりそのまま他の団体に真似される可能性も十二分に
あります(とくに大きい利益が見込まれる分野の場合)。
ソースコードの開示自体は悪いことではない(安全性の確認や
アルゴリズムに存在するBugの発見、改良に寄与する)ですが、
クライアントの配布はあくまでも主催団体のみが行なうことが
この手のプロジェクトの絶対条件となります。
当然直接バイナリに手を出す奴もたくさんいるので完全な抑止力
とはなりませんが。
Re:話はそんなに単純じゃない (スコア:2)
要は, そのソースコードが開示されてるかどうかで, ソースレベルで弄れるヤツが悪さするか, バイナリをパッチできるヤツが悪さするかというのが変わるだけで。
Re:話はそんなに単純じゃない (スコア:1)
8ビット時代のゲームソフトみたい(藁
間違えた (スコア:1)
(最近追加されたやつはどういうものか良く知らないけど)
オープンソースのP2P検索エンジン構築プロジェクトも (スコア:1)
grub.org [grub.org]