パスワードを忘れた? アカウント作成
223500 story
インターネット

Web ページに対する、高頻度アクセスはどこまで OK ? 119

ストーリー by reo
ああ、ご本人さまですか ? 部門より

なので AC 曰く、

図書館のウェブサイトに 3 万 3 千回アクセスした男が業務妨害容疑で逮捕されたそうだ (asahi.com の記事より) 。

私は衆議院のページで、制定法律の一覧をを引き抜いた事が一度あるが、こういう場合には、先方に一言掛けてから行うのが筋だろうか?こういう場合でも業務妨害の可能性があるのだろうか?皆さまのご意見を伺いたい。

興味深いのは 1 秒 1 アクセスという点もあるが、容疑者と図書館の間には特にトラブルが確認されていないのに逮捕されているという点だろうか。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by mogya (27057) on 2010年05月27日 13時29分 (#1770280) ホームページ

    自分の場合、相手が困っていたら連絡がつくように、UserAgentにメールアドレス入れてあります。

    userAgent = "mogya scraper. you can contact me at ***@mogya.com"

    GoogleBotなどのちゃんとしたロボットだと、WEBページのURLを書いていることが多いですね。

    そういうふうになっていれば、いきなり警察権力を介入させなくても、「やめてください」ということだって出来たはずなのに、そうならなかったのはなんでなんだろう?
    1.そもそもそんな配慮がなされていなかった
    2.配慮されていたんだけど、図書館側が(気づかずに/気づいたけど無視して)いきなり警察に通報した
    3.連絡はついて、警告したんだけどしつこくアクセスし続けた

    どれなんだろう。2でないことを祈ります(僕の身の安全のために)。

    • by kousokubus (37099) on 2010年05月27日 16時33分 (#1770412)

      きちんとした報道がないので不明ですが、これ誰かが警察に「電話が何回もかかってきて業務妨害されているようなモンです」って説明しちゃったんじゃないかな。
      # おそらく配慮はされていなかったんだろうけど、図書館側もいきなり警察に相談したような気がする。

      どれなんだろう。2でないことを祈ります(僕の身の安全のために)。

      スクレイピングをする際には、先方に迷惑を掛けないのが大前提です。
      相手が想定している以上の負荷を掛けて落としちゃったらどんなに相手のサーバがしょぼかろうが、スクレイピングしている側が悪いわけですし。

      迷惑かけたときに連絡がとれるようにするという対策じゃなくて、
      迷惑かけない頻度にしておくというのが対策になると思うのですがどんなもんでしょう。
      基本的には、人間が手でアクセスするのを自動化する(それぐらいの頻度でアクセスする)のが良いんじゃないかなぁ。
      # なんにせよ相手の状況も判らず1秒1回はやり過ぎでしょう。
      # これ、15分に1回を一ヶ月で捕まったなら同情するけど:-P

      親コメント
  • by Anonymous Coward on 2010年05月27日 11時56分 (#1770196)

    こういう記事を見ると日本も「ゼロ・トレランス(不寛容)」の時代に入ってきたんだと感じます。

    ゼロ・トレランスは日本だと教育界での規則の厳格化を指すようですが,アメリカやヨーロッパあたりだと国家や警察のあり方と関連して刑罰国家の枠組みでも語られます。

    簡単に言うと,「市民」が「安全」を希求するあまり,左派右派問わず政治家が国家の福祉政策などを削減する一方で,警察権限(司法/裁判所でなく)がコスト度外視に強化されていく政策です。そこには,警察の裁量による裁判無き投獄が待ちかまえています。

    今回の事件もそうですが,警察の力を借りる必要があるのか(民事で解決できなかったのか),身柄を拘束する必要があったのか。警察はいくらコストをかけたのか。警察の行為を検証されていくべきでしょうが,残念ながら今の日本に検証する制度はありません。

    おそらく今回の事件も起訴の前段階で不起訴処分となると思いますが,日本社会一般では裁判所の判決よりも警察の逮捕をもって犯罪を事実としてと決めつける傾向があることは,既に痴漢冤罪事件などからご存じでしょう。

    こうやって警察の統計上に「有罪でない」犯罪者※が増えていくことになるんでしょうね。

    ※ 「警察に一方的に逮捕されたが,裁判所で審議して刑が確定してない」という意味で

  • by Anonymous Coward on 2010年05月27日 11時58分 (#1770198)

    ・貸出状況確認cgiのページを自動でリロードして、目的書籍が表示されたら自動申込みなプログラム走らせといた
    ・実行しはじめてから30~40分ほどで、目的の書籍が貸出可状態に。プログラムが自動申込み。

    その感、図書館サーバが何度かダウン、再起動。
    イライラした担当者が調べたら同一IPからアホアクセスと最後に本名付き申込みが。
    腹立って通報。

    なんて内容が脳裏に浮かんだけど、実際はどういう目的だったんだろ

    • by Anonymous Coward on 2010年05月27日 15時29分 (#1770369)
      岡崎市立図書館のサイトにどのようなサービスがあるのか見てみたところ、
      蔵書検索があります。
      そして、ISBNでの検索ができるようです。

      もしかしたら、ISBNを1カウントずつ上げていって、図書館の蔵書データベースを
      全部コピーしてしまおうとしたのかもしれません。

      1秒に1回検索するものを、どんどんforkしていくプログラムでもやっていて、
      検索だと表示まで一秒以上かかるし、さらにデータベースも重くなってしまって
      ますますコネクションが滞留してしまい、一か月に21回もサービス停止に
      陥ったとも考えられます。

      ま、私が図書館のサーバ管理者なら、そういう迷惑アクセス者はブロックして
      ISPに連絡しますね。
      そのような対処方法を知らない人しかいなかったら、警察に通報しちゃうかも。
      そして、日頃暇を持て余しているサイバーコップな部署が大喜びで食いついたと。
      親コメント
  • 韓国の国技 (スコア:2, 興味深い)

    by nemui4 (20313) on 2010年05月27日 11時36分 (#1770180) 日記

    韓国から[F5]連打するのはかまわないのでしょうか。

    #火病だから桶?

    • by Anonymous Coward
      韓国の法律に日本のサーバ落としちゃいけないって書いてなければ、かまわないんじゃない?

      しかし、これ、単にたくさんデータ取りたくてやったんなら逮捕は酷い。
      ずいぶん前にAAA.JPからZZZ.JPまでwhoisしてあいてるドメイン名探したことがあるけど
      それで逮捕されたんじゃたまらんなぁ。
  • by gonta (11642) on 2010年05月27日 12時17分 (#1770218) 日記

    Apple Online Storeがこれに近い状況に。

    Wifiをアポストにオーダした連中が、出荷済みにならないぞー、といって10分ごとに繰り返しているとか。一時本当に動作しなくなった。

    --
    -- gonta --
    "May Macintosh be with you"
  • by Anonymous Coward on 2010年05月27日 12時38分 (#1770243)
    逮捕に至る前に解決しようとはしなかったのだろうか。どういう経路かわからないけど、図書館側が警察に相談→ISPに個人情報提供させる→逮捕なのかな。
    トラブルじゃないとすると、ISPから警告してもらえば止めたんじゃないのかな。あるいはそれ以前に、ダウンロードされてるページに警告文書いておくとかして、とにかく図書館側としては止めてほしい旨を伝えるべきだったんじゃ。
    図書館にどう思われてるかわからない状況で、いきなり逮捕はちょっと乱暴に見える
  • by upken (38225) on 2010年05月27日 12時44分 (#1770247)

    入り口がFlash必須で、重要でない背景画像が450kBと一番重かったりと、あまり素性の良いサイトではないですね。
    また、蔵書の検索が遅いので、この状態で毎秒1回検索していたらそりゃあダウンするでしょ。

    構築当初から問題があったのではないでしょうか。
    構築業者が知りたい。

  • twitterにて、librahack [twitter.com]というアカウントが開設され、
    「#librahack 岡崎市立中央図書館事件の容疑者が事件について解説。 http://librahack.jp/ [librahack.jp]」とつぶやき [twitter.com]始めました。

    該当サイト [librahack.jp]を見ると、
    ・「岡崎市立中央図書館」ご利用者の皆様、並びに関係各位の皆様へ 当事者からの謝罪文
    ・このサイトをご覧の方々へ
    ・サイトの目的と読者

    といった構成になっており、事件の容疑者だった中川圭右氏がこれから事件について語るという構図になっています。

    今のところ、当人しか知りえない情報といったものがないのでなりすましの可能性もあるのですが、それにしては手間がかかりすぎているので、本物じゃないかなぁ、と思ってみています。

  • wget だと -w で待ち時間(単位は秒)をつくることができますね。

    もう 10 年くらい前ですが、 wget を待ち時間ナシで仕掛けて、同じサーバで動いているメイルサーバを過負荷で倒しちゃったことがあります。
    130 人くらいに迷惑をかけたような…
    目的はローカルに検索エンジンを作りたかったのです。
    この人だってそんな程度じゃなかったのかなぁ。

    待ち時間を作っていたのであれば、少しは気を使っていて、それが長いか短いかだけの問題のような…。
    当方なら、一秒に一回なら許容範囲内のように思います。
    反対にこれが許容範囲外なら、何秒に一回のアクセスなら許容範囲内なのでしょう?
  • by Anonymous Coward on 2010年05月27日 11時45分 (#1770186)

    逮捕された容疑者と同じようなことをやっています。

    私の場合、市営施設(テニスコート)の利用申請ページを数秒毎にリロードし、
    キャンセル待ち(申し込み状況が"満員"から"空きあり"になるのをチェック)しています。

    といってもプログラムを書いたわけではなく、Firefoxにアドオン(ReloadEvery)を入れて、
    モニタの片隅で表示させてるだけなんですけどね。

    • by Anonymous Coward on 2010年05月28日 15時07分 (#1770959)

      >市営施設(テニスコート)の利用申請ページを数秒毎にリロード(略)
      >Firefoxにアドオン(ReloadEvery)を入れて、モニタの片隅で表示させてるだけ

      そういうリロード機能では、1秒に1回の頻度にならないと思うのですね。
      同時に何枚も窓を開いて、複数条件で取得しているケースでも無さそうですし。

      なぜなら、ブラウザの描画終了を待ってリロードするから、単純に時間待ちの連続アクセスになりにくく、
      サーバーに負荷がかかって処理が重くなったら、重くなったなりに適宜ウェイトが入ってるのと同じ事になる。
      更に、自分で書くツールなら、処理にかかった時間を計測しながら頻度を増減させる事も出来たでしょう。
      (実際、会社のページの検索エンジンの処理時間が問題になった時、そのような調査ツールを書いてました。)

      ちょっと考えれば、ローカルな公共システムなんてバックエンドがそれほどリッチと見積もらないし、
      一度ダウンすればダウンタイムが長くなって、他の利用者の妨げになってると言う考えが思い浮かぶはず。
      21回もダウンしたなら、それを知らないはずないだろうし、お詫びの告知(警告)もあったんじゃないかと。
      そう考えると、故意でなかったとしたら自分のやってる事にちょっと無神経すぎたのではないでしょうか。

      当該ツールが、どういう仕様&目的か知らないけど「便利になれば正義、マッシュアップ(キリッ」的な感覚で
      一方的な個人の目的を満たすために、負荷が見えない上に事前にコンセンサスを共有していない対象サーバーに、
      機械的にアクセスさせて秒間1回と言うのは、悪意が無かったとしたら相当未熟なエンジニアの仕事だなあ、と。
      効率化しようとして、接続クライアントを何個も立ち上げて同時アクセスしてたのでしょうかね。

      迷惑被った利用者の立場、そういう人の苦情の窓口になった司書さん等の立場に立てば全然同情出来ません。
      (容疑者が負荷分散目的で成果物を還元しようとしていたなら、善意の押し売りとはいえ少しは同情します)

      最近、Web2.0ブームで本来対応していないサイトなのに、勝手にWebAPI化したりしてるサービスなんかもありますが、
      この一件が故意ではなく不注意が招いた事故であれば、他人事ではないと考えてる人もいるようです。
      そういう意味では、P2Pファイル共有同様に技術的に可能だからと言ってなんでも許される訳ないというコンセンサスの醸成、
      それでもやりたい時のガイドラインやフレームワークを整備していく反面教師にしたら良いのではないかと思います。

      親コメント
  • > 同課によると、中川容疑者は1回ボタンを押すだけで、1秒に1回程度の速度でアクセスを繰り返せるプログラムを作っていたという。
    という記述からは、なにかを収集するとかそういう目的ではなく、単純に負荷かけるだけのプログラムと読み取れます。
    何回とかではなくて、何したかでしょう。

    > 興味深いのは(中略)特にトラブルが確認されていないのに逮捕されているという点だろうか
    なんらかの罪を犯した人の近隣の人が「普段はおとなしい子なんです」って言っているのに逮捕するのは興味深いと言っているようなものでは?
    「中川容疑者の自宅のパソコンなど特定の端末から計約6万4千回のアクセスがあり」とあるので、逮捕自体は自然だと思います。
    --
    # yes, fly. no, fry.
    • > なにかを収集するとかそういう目的ではなく、単純に負荷かけるだけのプロ
      > グラムと読み取れます

      本気で負荷を掛けるなら、秒間 1回なんて事はしないですよ。
      秒間 1000回とか 1万回とかひたすら掛けますよ。
      それに 1ヶ月に 6.4万回って、88分に 1回。

      while(){
            acccess();
            sleep(1);
      }

      な感じのコードだったんじゃないですかね?
      本気なら

      while(){
            acccess();
      }

      こうします。

      でも調書取るときの様子って、

      「図書館のサーバが落ちたんだぞ」
      「でも、1秒に1回しか読みに行ってないですよ」
      「1秒に1回も攻撃と」

      こんなだったんじゃないかな。
      電話だと何万回とか 1秒に 1回はとてもつもなく多いけど、
      WWW アクセスにとってみればゴミみたいなレベル。

      --
      TomOne
      親コメント
      • by Anonymous Coward on 2010年05月28日 10時57分 (#1770770)
        > それに 1ヶ月に 6.4万回って、88分に 1回。

        おやと思って計算してみました。
        40.5秒に1回では?
        親コメント
      • それはわかります。
        ばれないようにするための小細工またはバレてもDoSじゃない(頻度少ない)と言い逃れするための策だったのかなぁと
        記事みるかぎり複数台でやっていたようなので。
        (それでも100台以上はないと負荷にならない・・・実は律儀にレスポンスまってて遅かったってだけかもしれません。)

        なんにせよ(負荷目的だとすれば)プロの犯行ではなさそうですよね。
        --
        # yes, fly. no, fry.
        親コメント
    • > 興味深いのは(中略)特にトラブルが確認されていないのに逮捕されているという点だろうか
      なんらかの罪を犯した人の近隣の人が「普段はおとなしい子なんです」って言っているのに逮捕するのは興味深いと言っているようなものでは?

      近隣の人は被害者ではなくて第三者だからあまり例としてよろしくないのでは?
      タレコミの例なら被害者が気がつく前にストーカーが逮捕されても当たり前じゃね? の方がしっくりくるような。

      ちょっと調べたところ業務妨害は親告罪ではないそうなのですが図書館側が警察に訴えたとかではないんでしょうかね?
      さすがに図書館側が調査してないのに警察が気がつくとか現実的ではないように思えるので図書館側がアクセスログを
      調査して発覚、警察に通報ってパターンなんじゃないでしょうか。
      『目立ったトラブル』というのは今回の動機となりうるような以前のトラブルの話なのでは。

      asahiの記事だと21回サイトの閲覧が停止されていたのが被害とされているみたいですが、これがなかったら
      成立してなかったとかもあるんでしょうか。

      --
      スルースキル:Lv2
      Keep It Simple, Stupid!
      親コメント
  • by kamisui (39000) on 2010年05月27日 11時50分 (#1770189)

    >約1カ月間に、中川容疑者の自宅のパソコンなど特定の端末から計約6万4千回のアクセスがあり、その影響でホームページの閲覧は21回停止されていた

    この程度で落ちるようではGoogleのクローラーにすら耐えられないのでは・・・。

    普段クローラーがあまり来ないほど価値の無いコンテンツしか無いのか、アクセスされたページがよほどレベルの低いスクリプトか何かだったのか。。(図書の検索とか?)
    もっとお行儀の悪いSpam系のbotが来たら瞬殺だよこりゃ。

    • by Anonymous Coward on 2010年05月27日 12時05分 (#1770202)
      アクセスの仕方による。
      1秒に1回、どのようなアクセスをしたか。

      物事はそんな単純に評価できるものではないんだ。
      実際に現場で何があったのか、知りもせずにグダグダ外野が言ってもしょうがない。

      普通のアクセスなら余裕のはずなので、何か異常なアクセスをしたのではないか。

      例えば1秒に1回コネクションを増やしていくとか。
      親コメント
    • by Stealth (5277) on 2010年05月27日 18時30分 (#1770486)

      Google のクローラーなどは基本的に 1 リクエストが 15 ~ 30 秒に 1 回で、かつ If-Modified-Since 付きで送ってくれるなどしてくれますので、全然負荷が異なると思いますけど。

      一番迷惑なのは作りかけ系とかの試作クローラー系。大抵この手の配慮が甘く、かつそのシステムの更新→再実行頻度も既存の安定稼働物よりも動作頻度が高い傾向があるため、負荷に直結しやすい。また、同時に複数接続した上で間断なく一気に拾っていくものとかもあります。
      百度よりひどいレベル、と言えば参考になるでしょうか。少なくとも国内の企業や大学辺りとかからだけでも数件は確認している、という感じですね。
      もっとお行儀の悪い……はこっちの方を言っているのだと思いますが。

      静的コンテンツか動的コンテンツかで負荷の差が違いすぎるけど、静的コンテンツ主体でも延々と回線いっぱいに持って行かれるのはきついです。

      親コメント
    • by t-wata (10969) on 2010年05月27日 18時43分 (#1770493) 日記
      > もっとお行儀の悪いSpam系のbotが来たら瞬殺だよこりゃ。

      /.edのことですか?
      親コメント
  • by Anonymous Coward on 2010年05月27日 11時50分 (#1770190)

    ・はてなブックマークのコメント
    http://b.hatena.ne.jp/entry/www.asahi.com/digital/internet/NGY20100525... [hatena.ne.jp]
    ・Twitterのコメント
    http://tweetbuzz.jp/entry/30029131/www.asahi.com/digital/internet/NGY2... [tweetbuzz.jp]

  • by Anonymous Coward on 2010年05月27日 12時08分 (#1770207)

    1秒に1アクセスで3万3千回なら約10時間ですよね。

  • 情報が少ない中で速報性にばかり気をとらわれて、記者がよくわからないけど記事にしておくというのにも問題があるのでは?

    こういった情報って、一刻も早く知りたい情報なのだろうか?
    もう少し情報がきちんとわかってから報道するのが良いかなと。

  • 邪推 (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2010年05月27日 14時06分 (#1770325)

    逮捕されるような作為があってやってたんなら、ホームページ作成会社社長らしいし、
    「いまのコンテンツの作り方だと負荷ばかりかかってもったいないから、ウチで作り直しましょうよ?」
    的な営業を掛けてて、その一環でホントに負荷をかけたんじゃないかな?

    # ちょっとPCの動作が遅いと[F5]連打、マウスクリック連発らしいウチの取締役も逮捕して欲しい。w
    # 伝聞なのでAC

  • by nox_dot (11614) on 2010年05月27日 16時05分 (#1770401) 日記

    逆に、サーバ管理者として、同じ端末から(たとえば)1秒に1回以上のアクセスを遮断するには、
    apacheで、どのような設定をしたらいいのでしょうか?

  • by Anonymous Coward on 2010年05月27日 11時39分 (#1770183)

    下手にDoS攻撃対策にスキルを発揮してしまうと被害が発生しないので、被害届を出せません。ほっといてサーバを落とせば被害者としてやりたい放題です。
    個人情報漏洩とかが発生すると多少不利益がありますが、せいぜい一人当たり500円の損害に過ぎません。まして単なるDoS攻撃に対策するモチベーションなどあるはずがありません。

    • by bewon (36083) on 2010年05月27日 12時29分 (#1770236) 日記
      提供するサービスによると思うんですけどね。

      商用目的のサイトであれば、DoS攻撃によってダウンすることは直接機会損失になりますし。
      この件では図書館サイトの可用性をどの程度重要視するか、にかかってくるわけで。
      個人的には最低限の対策(IDS導入くらいかな)はあってもいいかなと思うわけです。

      あと、DoS攻撃と個人情報漏洩の対策は別問題ですよ。
      500円という認識もそろそろ古くなってきています。
      JNSAの統計 [jnsa.org]では一人当たり3万~10万円って事件が多いみたいですよ?
      エステ顧客情報やらクレジットカード情報やらが漏洩したせいでもありますが。
      親コメント
    • by Anonymous Coward

      もしかして:ハニーポット

      # または:新手のたちの悪い合法的振り込め詐欺

typodupeerror

犯人はmoriwaka -- Anonymous Coward

読み込み中...