AWS停止の原因はメモリリークと それをモニタしアラームするシステムの不具合だった 14
ストーリー by hylom
蟻の穴から堤も崩れる 部門より
蟻の穴から堤も崩れる 部門より
あるAnonymous Coward 曰く、
先週の月曜日、10月22日に起きたAmazon Web Servicesのサービス停止は、Redditやそのほかのメジャーなサービスにまで被害が及んだが、その原因はメモリリークとモニタリングシステムの不具合だった(TechCrunch、ITmedia)。
金曜日夜のサポート記事でAWSは、一台のデータ収集サーバを単純にリプレースしたあとに問題が生じた、と説明している。インストール後にそのサーバは、DNSのアドレスを正しく伝送せず、そのためほんの一部のサーバがメッセージをもらえなかった。それらのサーバは問題のサーバに何度もアクセスを試み、それがメモリリークを生じさせ、さらに内部のモニタリングのアラームが不具合だったため、制御不能に陥った。システムは最終的に仮想停止に追い込まれ、何百万もの顧客が痛い目に遭った。
鉄分多すぎたかな? (スコア:1)
タイトル見て一瞬、自動列車警報装置の不具合かと思ってしまった。
Amazon Web サービスのほうが一般的だったんだなぁ
Re:鉄分多すぎたかな? (スコア:1)
鉄分極小ですが、なんとなくそっちを連想した。
Amazon Web Serviceというのはあまり知らなかったし・・・
クラウドはまだまだ黎明期ですねぇ、ってネット自体がそうなのかな。
さらに内部のモニタリングのアラームが不具合だったため、 (スコア:0)
翻訳システムに不具合だったため、日本語でおk
Re:さらに内部のモニタリングのアラームが不具合だったため、 (スコア:1)
本来必要とするアラームが上がってこなくて、状態把握ができずに対応してなくてメモリリークからシステムリソースが食いつくされて全体がスローダウンした?
仮想停止って何? (スコア:0)
んで、メモリリークって処理の回数が増えると生じるもんなの?
Re: (スコア:0)
なんだかメモリをたくさん使うことを何でもかんでもメモリリークと言う業界があるみたいです。
Re: (スコア:0)
「アラームが不具合だったため」もだが、TechCrunchからのコピペみたいだね。
コピペでタレコむな。そしてそれをそのまま採用するな。
原文を調べたら
> Eventually the system ground to a virtual stop
だから「システムは事実上の停止状態に追い込まれ」だな。virtualを「仮想」としか訳せないとかどんな機械翻訳だよ。
Re: (スコア:0)
逆に考えるんだ。コピペを発見するために人間がまともな査読をしていたらまずありえない文章を混ぜていると考えるんだ。
Re: (スコア:0)
わずかなメモリリークも処理が重複すると積もり積もって大きなメモリ消費量になる~と自然に脳内解釈すれば大丈夫
Re: (スコア:0)
単に短時間で処理が集中したとき大量に消費されただけで処理が一段落したときに解放されなくなるわけじゃないよね。それってメモリリークって言うの? 本当にリークしてるなら単に長時間走らせるだけで表面化しそうなものだけど。
Re: (スコア:0)
問い合わせが失敗し続けている間のみリークするようなプログラムだったのかも。
Re:仮想停止って何? (スコア:1)
せっかくITmediaへのリンクあるのに
これが引き金となって、ストレージサーバ上のエージェントに潜在していたメモリリークのバグを誘発。同エージェントがサーバに接続を試み続けたことから、システムメモリが徐々に消費され、
Re: (スコア:0)
自分自身を書き換えるプログラムならあるいは…… つまり、壮大な人工知能の実験だったんだよ!
対策 (スコア:0)
どこの記事か忘れたけど、最後のほうに
「~な対策をするので、今後、同じような問題は起こさないようにする」みたいなことが書いてありました。
「対策本部を建てて以後気をつけます」とか言わないだけちゃんとしてるな、と思いました。