パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

中国産検索エンジン「百度」が日本語検索サービスを開始」記事へのコメント

  • by Anonymous Coward
    あのはた迷惑な baiduspider 動かしておいて、何をキレイごと抜かしとるんじゃ!
    ……と思ったら、いつの間にか方針 [baidu.jp]変えとったんだね。

    #とはいえ、一度染み付いた悪印象は拭いがたいものだが。
    • by Anonymous Coward on 2007年03月22日 11時56分 (#1129977)
      あ、ホントだ。
      謝罪まで掲載してるのは好感持てるね。

      でも、やっぱ一度染み付いた悪印象は私もなかなか拭えません。
      htaccessの設定を変える気は当分無いな
      親コメント
      • >でも、やっぱ一度染み付いた悪印象は私もなかなか拭えません。

         いや、まったく。
         403を返しているのに以前収集したリストに従って数アクセス/秒 [homeunix.net]なんてされたら、いい感情は持てないです。

        >htaccessの設定を変える気は当分無いな

         同様に、robots.txtを変える気にはなれません。

        …が、

        122.152.128.48 - - [22/Mar/2007:17:06:20 +0900] "GET / HTTP/1.1" 200 12769 "-" "
        Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
        122.152.128.48 - - [22/Mar/2007:18:06:11 +0900] "GET / HTTP/1.1" 200 12769 "-" "
        Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
        122.152.128.48 - - [22/Mar/2007:19:05:34 +0900] "GET / HTTP/1.1" 200 12769 "-" "
        Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
        122.152.128.48 - - [22/Mar/2007:20:05:51 +0900] "GET / HTTP/1.1" 200 12769 "-" "
        Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
        あれれ?なんで?…と思ったら
        User-Agent: baiduspider
        Disallow: /
        となっていました。
         心優しいgooglebotやmsnbotは、"User-Agent: *"を、仕方ないなぁ"User-agent: *"なんでしょ?、と大目に見ていたようです。

         1時間おきに/を見に来るようなロボットはどうよ?と思うので、robotx.txtを訂正して、改めてbaiduspiderにはお引き取り願うことにしました。
        親コメント
        • by FTNS (17738) on 2007年03月23日 15時28分 (#1130715)
          私のhttpd.confを見ていたら、以下のような記述がありました
          当時相当に頭にきていたと思われます。
          ---
          :
          # Baiduspider
          # Chinese bad-behavior crawler
          Deny from 60.28.*.*
          :
          :
          SetEnvIf User-Agent "[Bb][Aa][Ii][Dd][Uu][Ss][Pp][Ii][Dd][Ee][Rr]" CrawlerAgent
          SetEnvIf User-Agent "http:¥/¥/www¥.baidu¥.com¥/" CrawlerAgent
          :
          :
          <Directory "/usr/local/www/***/data">
              AllowOverride ....
              Options ....

              Order deny,allow
              Deny from env=CrawlerAgent
          </Directory>
          ---
          今は....やっぱり開ける気はしません。
          今時衛星破壊実験やってしまうような国のサービスに、協力する義務も義理も人情も無い訳で。
          #中国で政府と無関係でインターネットサービスできると思えますか?
          --
          --- de FTNS.
          親コメント
      • by Anonymous Coward on 2007年03月22日 16時51分 (#1130163)
        個人的な意見ですが、

        baiduの横暴に腹を立てた多くの人は遮断してエラーすら返さなかった。
        サイトがエラーを返さないとtimeoutまで待機しなければならない。
        そういうサイトが増えすぎるとbotの運用に支障が出るようになる。
        そこで迂回するほどbaiduのbotは賢くない(笑
        時間帯的にアクセスピークを避けるのは、反省したからではなく日本語サイトがオープンしたから。
        要するにbaiduとしてはアクセスピーク時はリソースをbotに回すより検索利用者に回したい。
        もちろん各サイトの都合を考慮したからではない。
        ここ半年ほど狂ったようにbaiduが増えたのが日本語サイトのオープンに合わせたやっつけ仕事。
        一通り漁ったので、後は更新とるだけなのでそんなにbotをまわさなくて良い。

        やっちまえば勝ち的な考えをしているところとは付き合いきれない。
        親コメント
        • >やっちまえば勝ち的な考えをしているところとは付き合いきれない。

          ネット上のいろんなサービスが該当するんですが
      • >でも、やっぱ一度染み付いた悪印象は私もなかなか拭えません。

        ウチでは.htaccessで真っ向拒否してるんですが、何の気なしにドメインで検索したら見事に引っかかっていましたよ。
        それもつい5日前のキャッシュがしっかりと残っていました。

        あわててログをひっくり返したらこんなアクセスがでてきましたよ。
        122.152.128.47 - - [17/Mar/2007:13:24:49 +0900] "GET /security/ HTTP/1.1" 200 30806 "-"
        "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)"
        …UA詐称してますかそうですか。

        しかもrobots.txtの「User-agent: baiduspider」を無視していたり、METAタグのNOARCHIVEまで無視していたり…。
        またタダでさえ馬鹿でかい.htaccessがまたでかくなるのか…。
        親コメント

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

処理中...