リンクを辿ってくるんじゃなくて、URI を決め打ちして存在しないアドレスにも絨毯攻撃のごとくアクセスしてくるから、困り物ですよね。 Wiki とか動的生成のウェブログ (WordPress 等) などでは、存在しない URI でも 404 Not Found を返さずに何か内容を返すことが多いため、その URI をもとに新たに URI を生成してアクセスしてきます。すると、Baidu からのアクセスが増殖してくるので DoS 並みになる可能性があります。
たとえば、「http://www.example.jp/2006/12/」が動的生成で、以下のような URI をすべて受け付けるとします。
spamクローラー (スコア:4, 参考になる)
秒間10アクセスとかあまりにも激しいのでうちの宅鯖では蹴っているんだよね。
鯖に負荷持たせたくないので、ルーターの段階で。
処理と転送量の大半を持っていくので、他にも蹴ってる人は多いはず。
日本サービス始めるなら入れるかなぁ。悩むなぁ。
Wiki や 動的生成ブログだとアクセス増殖 (スコア:3, 参考になる)
リンクを辿ってくるんじゃなくて、URI を決め打ちして存在しないアドレスにも絨毯攻撃のごとくアクセスしてくるから、困り物ですよね。
Wiki とか動的生成のウェブログ (WordPress 等) などでは、存在しない URI でも 404 Not Found を返さずに何か内容を返すことが多いため、その URI をもとに新たに URI を生成してアクセスしてきます。すると、Baidu からのアクセスが増殖してくるので DoS 並みになる可能性があります。
たとえば、「http://www.example.jp/2006/12/」が動的生成で、以下のような URI をすべて受け付けるとします。
・http://www.example.jp/2006/12/01/
・http://www.example.jp/2006/12/02/
……
・http://www.example.jp/2006/12/31/
そうすると、以下のように URI を生成して接続してきます。どんどんアクセスする URI が長くなって、しまいに収集が付かなくなります。動的生成システムが悪いのか Baidu が悪いのか……。
・http://www.example.jp/2006/12/01/12/
・http://www.example.jp/2006/12/03/31/
・http://www.example.jp/2006/12/05/10/02/23/
……
Re:spamクローラー (スコア:2, おもしろおかしい)
#コンテンツに中国的NGワード書いたほうが確実だったりして。
Re:spamクローラー (スコア:2, 興味深い)
最初は巡回拒否に従ってた風なんですが、
ある時から急にrobots.txtもmetaも無視し、
アホみたいな勢いで虱潰しに漁り始めたので、
こりゃたまらん、と蹴り出しました。
今は知らない。
Re:spamクローラー (スコア:1, おもしろおかしい)
…なんだか本当に効きそうな気がして嫌だ。
Re:spamクローラー (スコア:0)
「天安門事件」みたいに目立つキーワードだと余計に絨毯爆撃される気がする。
ちょっとググっただけで大量に出てくる。<baidu拒否
いや、googleはライバル関係だから信用したらダメかw
Re:spamクローラー (スコア:0)
<!-- 天安門事件 -->
と、入れると言うことで(w
Re:ぁぅぁぅ (スコア:1)
あ、すいません。間違えました。(^^;
タレコミ文中の、、、
×:baido.com
◎:baidu.com [baidu.com]
……です。訂正してお詫び申し上げます。
#おかしーなー、「山口百恵」とか「福原愛」とか、
#いろいろキーワード突っ込んで検索結果調べてたのになぁ。
Re:spamクローラー (スコア:1, 参考になる)
Re:spamクローラー (スコア:1)
iptablesのDROPで何も返さないようにしてる。
Re:spamクローラー (スコア:1)
タイトルを見た瞬間に、「げ、あのbaiduかよ」と思いました。
これまでの悪行の数々を悔い改めて優しいアクセスをするならともかく、これまでと変わらぬ酷いアクセスをしてくるなら、やっぱり問答無用で拒否です。
Re:spamクローラー (スコア:1, おもしろおかしい)
Re:spamクローラー (スコア:0)
因みにおもしろおかしいで
GoToDMC!GoToDMC!
Re:spamクローラー (スコア:1)
明日はお前のために11回アクセスしてやる。
LIVE-GON(リベゴン)
Re:spamクローラー (スコア:0)
一体どれだけの帯域を使っているんだろう?
(某検索エンジンがデータセンターの帯域を食い潰して「こらー」と言われたのを知っているのでAC)