リンクを辿ってくるんじゃなくて、URI を決め打ちして存在しないアドレスにも絨毯攻撃のごとくアクセスしてくるから、困り物ですよね。 Wiki とか動的生成のウェブログ (WordPress 等) などでは、存在しない URI でも 404 Not Found を返さずに何か内容を返すことが多いため、その URI をもとに新たに URI を生成してアクセスしてきます。すると、Baidu からのアクセスが増殖してくるので DoS 並みになる可能性があります。
たとえば、「http://www.example.jp/2006/12/」が動的生成で、以下のような URI をすべて受け付けるとします。
spamクローラー (スコア:4, 参考になる)
秒間10アクセスとかあまりにも激しいのでうちの宅鯖では蹴っているんだよね。
鯖に負荷持たせたくないので、ルーターの段階で。
処理と転送量の大半を持っていくので、他にも蹴ってる人は多いはず。
日本サービス始めるなら入れるかなぁ。悩むなぁ。
Wiki や 動的生成ブログだとアクセス増殖 (スコア:3, 参考になる)
リンクを辿ってくるんじゃなくて、URI を決め打ちして存在しないアドレスにも絨毯攻撃のごとくアクセスしてくるから、困り物ですよね。
Wiki とか動的生成のウェブログ (WordPress 等) などでは、存在しない URI でも 404 Not Found を返さずに何か内容を返すことが多いため、その URI をもとに新たに URI を生成してアクセスしてきます。すると、Baidu からのアクセスが増殖してくるので DoS 並みになる可能性があります。
たとえば、「http://www.example.jp/2006/12/」が動的生成で、以下のような URI をすべて受け付けるとします。
・http://www.example.jp/2006/12/01/
・http://www.example.jp/2006/12/02/
……
・http://www.example.jp/2006/12/31/
そうすると、以下のように URI を生成して接続してきます。どんどんアクセスする URI が長くなって、しまいに収集が付かなくなります。動的生成システムが悪いのか Baidu が悪いのか……。
・http://www.example.jp/2006/12/01/12/
・http://www.example.jp/2006/12/03/31/
・http://www.example.jp/2006/12/05/10/02/23/
……