パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Webの完全インデックス化を目指すP2P技術」記事へのコメント

  • by rohi (5663) on 2001年11月14日 1時18分 (#38038)
    個人PCから各地のWebサーバを訪問してインデックス構築するよか、各地のWebサーバ自身に、保持するコンテンツのインデックス構築の義務を負わせるほうがいいんじゃないか、と思った。
    各Webサーバが保持するコンテンツのインデックスとダイジェストを、検索サーバ間で流通させとけばいいんじゃないのかな。

    決めなきゃならないもの…
      ・インデックス+ダイジェストの流通フォーマット
      ・検索サーバとWebサーバのやりとり方法

    まずは、Apacheのモジュールとしてnamazuを組み入れるところから実装をはじめるとか。

    検索サーバ=Webサーバにして、分散検索サービスを構築すべきかな。いや、検索サーバーは、世界中のWebサーバーから送られてくるインデックス+ダイジェストをまとめあげて、ユーザからの検索要求にこたえるべきか。
    • やっぱり、新しいProtocolを作るとか、
      SOAPとやらで投げるとか、するんでしょうか?

      ん。DNSならぬDomainNaiyouServiceとか?
      親コメント
    • 分散検索サーバにすりゃいいじゃん、
      それならロボットで無駄にカウンタ回らないしー。
      とか一瞬お気楽に思ったんですけど、
      そうするとgoogleみたいな効率の良い検索って
      なかなか出来ないんじゃないでしょうか。

      するとやっぱり検索サーバはwebサーバからのインデクスを
      得る形の方が良いようだけど、それでも効率のよい検索が
      可能な仕組を考えねばいけませんよねぇ。
      しかも後にそれより良い検索方法が考案された場合には、
      それを実現するには検索サーバを改良するだけじゃなくて
      世界中のWebサーバを書き換えなきゃならんのでしょうか。

      ちょっと気が重いかも。
      親コメント
      • Webサーバの検索エンジンは、アルゴリズムごと外部から流し込めるようなのにすればいいんだね。
        インデックス流通に関しては、検索方法に影響されないほど普遍的なプロトコルを用意するってのが第1段階。
        第2世代は、インデックスから情報を検索するアルゴリズムも、インデックスとともに流通するというのでいいんじゃないかな。
        親コメント
  • by WindKnight (1253) on 2001年11月14日 0時29分 (#38016) 日記
    マシンパワーよりも、帯域のほうが問題やね。

    あっという間に、帯域を食いつぶしそう・・・・・。

    • by G7 (3009) on 2001年11月14日 0時37分 (#38020)
      あと、鯖側のアクセスされ度も心配かな。
      重めのCGIなんぞを今まで以上にロボットに訪問されたら
      それだけで痛いかも。

      #ロボット拒否してるなら関係ないが、それはこのネタにおいては考えても意味がないんで無視

      うーん。うちのTikiのロボット拒否を解除しようと思っていたのにのに。(え?今心配するのは杞憂だって?)

      あ。検索されること自体は、(世間の平均的評価(笑)よりは)好意的に捉えています俺。
      ただ、そのせいでサイトが手もつけられないほど重くなっちゃうんじゃ
      本末転倒なんで、どうしたものかと…
      親コメント
      • by WindKnight (1253) on 2001年11月14日 0時40分 (#38021) 日記
        トラフィックを計測している人たちも、ロボットには手を焼いているみたいですね。

        ロボットでアクセスカウンタが上がっても意味無いしねぇ。
        親コメント
        • by anakata (5746) on 2001年11月14日 2時16分 (#38049)
            ロボットでアクセスカウンタが上がっても意味無いしねぇ。

          WEB広告業界では、これは問題視され出しているようです。
          所によっては、ちゃんとロボットを排除するとクリックレートが
          いきなりとんでもないことに……。
          #つまり誰もクリックしてないってばれちゃうって事。
          親コメント
  • __
    どっかのACさんがどうせ日本語検索できないだろうからステ、
    みたいなこと書いていたはずですが
    自分も気になったのでメール送ってみました。

    一応「日本語で検索できるの? 日本のコンテンツも対象に
    すんの、どうなの?」みたいなこと書いたハズなので
    返答があれば結果報告します。

    って、そもそもFAQにそういうこと書いておいてくれれば
    いいのにさ。
    • 送ったメールの返事頂きました。
      やっぱり日本語の扱い方分からんそうで
      現状では英語だけみたい。

      ACさんの予想通りなので日本人にメリットがあまりない分、
      ちょっと参加しにくいかも知れませんね。

      でもいずれ外国語にも対応させたいと思ってるそうです。
      日本語と検索に関するあれこれをメールすれば
      早々対応してくれるのかもしれません。
      そんなわけで自分も知ってる限りでメール送ってみます。
      親コメント
  • 分散ロボットのクライアントは仕事をサーバからもらって 結果をサーバへ返すんですよね?

    ピア同士で通信してないならP2Pじゃないと 思うんですけど。

    あ、もちろんこれは用語についての揚げ足取りに 過ぎなくて、システムの意義については触れてません。

    (_ _)

  • ベータユーザになってみた方に質問。

    いらぬ心配かとは思うのですが、クライアントはプロキシサーバを使わないようにできてますでしょうか?

    広い範囲を1回ずつ舐めるロボットがプロキシキャッシュを 使ってくれるとCache Pollutionを引き起こしてくれるわけで、もしそうなっていたら気持ち悪いなあと。

    あと、サイトやプロバイダによってはトランスペアレントプロキシが噛んでいるところもあるでしょうから、参加にあたってはその辺にも要注意かなと。

  • by Anonymous Coward on 2001年11月14日 0時49分 (#38025)
    ジョージア工科大ですね.GA Techはいい学校です.
  • by Anonymous Coward on 2001年11月14日 0時51分 (#38027)

    この「インスト-ルするソフト」に、なにかシステムに悪さをするものとか入ってないよね。やっぱオープンソースでいただかないと、イマイチ信用できない。大学はM$とグルだったとか、そういうヤバいお話でなければ、乗ってもいいが。

    • by norihiro (479) on 2001年11月14日 1時27分 (#38040) 日記
      Seti@homeやRC5でも改造クライアントが問題になりました。
      OPL準拠のライセンスにすると、そこから不正な結果を
      生成する派生物が配布されてしまう危険が伴います。また
      解析アルゴリズムを公開してしまうと同じプロジェクトを
      そっくりそのまま他の団体に真似される可能性も十二分に
      あります(とくに大きい利益が見込まれる分野の場合)。

      ソースコードの開示自体は悪いことではない(安全性の確認や
      アルゴリズムに存在するBugの発見、改良に寄与する)ですが、
      クライアントの配布はあくまでも主催団体のみが行なうことが
      この手のプロジェクトの絶対条件となります。

      当然直接バイナリに手を出す奴もたくさんいるので完全な抑止力
      とはなりませんが。
      親コメント

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

処理中...