パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

/.jpも対象の即時に検索」記事へのコメント

  • 巡回ペース (スコア:1, 興味深い)

    by Anonymous Coward on 2002年12月05日 23時43分 (#212807)
    って事は、15分に1回のペースで全ページ拾われるって事か?
    人によっては迷惑なペースのような。
    #robot.txt更新しなくては。
    • by Anonymous Coward on 2002年12月06日 0時38分 (#212845)
      プル型じゃなくてプッシュ型とでもいうか、コンテンツが更新されたら
      自分のほうからサーチエンジンに知らせてあげる枠組みは作れないものだろうか。

      協力者はサーバにアドインを仕込む。更新したときには
      自動的にサーチエンジンのデータベースに登録してあげる。

      こうすると無駄がない上に提供者の意思で登録したりはずせたりして便利なんだけど。しかも最速。
      親コメント
      • Re:巡回ペース (スコア:2, 参考になる)

        by tyamadajp (10476) on 2002年12月06日 2時05分 (#212881) ホームページ
        そういう subscribe-notify モデルをサポートするための HTTP/1.1 の拡張として HTTPEvents [google.com] とか MONITOR [google.com] 命令が語られていたりします。

        これが入れば今のリンクと同じようにモニタ関係で結ばれたページ群が各所に自己生成して、その中から生まれた巨大群だけサーチエンジンがモニタ、みたいな構造ができそうです。
        親コメント
    • 想像ですが単純に一律 15 分ではなくて、各サイト・ページの更新頻度を記録しておいて、頻繁に更新がかかり、なおかつ他の指標(例えば GoogleRank とか)で要チェックとされる所だけ最短で 15 分毎に巡回、という方式なんではないでしょうか。

      最短間隔でのモニタが必要と判定されるページが 1000 ページもあれば毎秒アクセスがくる勘定になるのでちょっと迷惑かもしれませんが、そういう所はきっとそれなりの規模とアクセスがあるのでOKでしょう。

      # それに一律 15 分間隔では処理をどれだけ細分化しても
      # 圧倒的な流入データ量で自分の方が詰まってしまいそう
      親コメント
    • Re:巡回ペース (スコア:1, 参考になる)

      by Anonymous Coward on 2002年12月06日 2時14分 (#212884)
      ここ [zdnet.co.jp]に結構詳しく載ってますが、
      更新頻度を学習して巡回ペースにメリハリを付けてるっぽいですね。
      1ホストへのアクセス集中についてもそれなりに配慮しているようです。

      Linuxクラスタなんですね。
      親コメント
    • by Anonymous Coward
       #robot.txt更新しなくては。

      robots.txtを変更しないと意味がない罠。

      #あまりにつまらないつっこみなのでAC
      • by Anonymous Coward
        恐ろしいことに、"robot.txt"を読みに来るクローラも実在するのだった。韓国のなんとかってやつだったが...思い出せん。

        とりあえずrobots.txtをrobot.txtにコピーしましたが。

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

処理中...