米東海岸で発生したAmazon S3の大規模障害、原因はタイプミス 31
ストーリー by headless
復旧 部門より
復旧 部門より
米国の東海岸で2月28日朝(日本時間3月1日未明)にAmazon Simple Storage Service(S3)の数時間にわたる大規模な障害が発生し、多くのWebサイトやサービスが影響を受けたのだが、原因はエンジニアのタイプミスだったそうだ(Amazon Web Servicesの発表、
The Vergeの記事、
The Guardianの記事、
The Registerの記事)。
当時、課金システムのデバッグを行っていたAmazon S3チームは、課金システムで使用するサブシステムの少数のサーバーを削除しようとコマンドを入力したのだという。しかし、タイプミスにより、意図していたよりも広い範囲のサーバーが削除されることになる。 意図せず削除されたサーバーはインデックスサブシステムとストレージ割り当てのサブシステムが使用するもので、相当量の容量が削除されたことで各サブシステムの完全な再起動が必要になったとのこと。
S3のサブシステムはこのような状況でも顧客に大きな影響がないよう設計されているが、これらのサブシステムは何年にもわたって完全再起動したことがなかったそうだ。また、S3はこの数年で規模が大幅に拡大しており、再起動時の整合性チェックなどにも想定以上の長い時間を要したという。
同様の問題が今後は発生しないよう、Amazonでは削除に使用するツールを改良して削除速度を低下させ、必要最低限の容量を下回る削除処理が実行できないように対策したとのこと。また、重要なサブシステムの復旧を迅速化するため、S3ではサービスをセルと呼ばれる小さなパーティションに分割して格納しており、規模の拡大に伴ってセルの縮小を進めてきたという。しかし、今回のトラブルでは想定以上の復旧時間を要したため、今後インデックスサブシステムのさらなるパーティショニングを進めるとのことだ。
当時、課金システムのデバッグを行っていたAmazon S3チームは、課金システムで使用するサブシステムの少数のサーバーを削除しようとコマンドを入力したのだという。しかし、タイプミスにより、意図していたよりも広い範囲のサーバーが削除されることになる。 意図せず削除されたサーバーはインデックスサブシステムとストレージ割り当てのサブシステムが使用するもので、相当量の容量が削除されたことで各サブシステムの完全な再起動が必要になったとのこと。
S3のサブシステムはこのような状況でも顧客に大きな影響がないよう設計されているが、これらのサブシステムは何年にもわたって完全再起動したことがなかったそうだ。また、S3はこの数年で規模が大幅に拡大しており、再起動時の整合性チェックなどにも想定以上の長い時間を要したという。
同様の問題が今後は発生しないよう、Amazonでは削除に使用するツールを改良して削除速度を低下させ、必要最低限の容量を下回る削除処理が実行できないように対策したとのこと。また、重要なサブシステムの復旧を迅速化するため、S3ではサービスをセルと呼ばれる小さなパーティションに分割して格納しており、規模の拡大に伴ってセルの縮小を進めてきたという。しかし、今回のトラブルでは想定以上の復旧時間を要したため、今後インデックスサブシステムのさらなるパーティショニングを進めるとのことだ。
一方日本では過去に (スコア:3)
rootディレクトリでroot権限で作業中、間違って rm -rf * を実行してしまい、復旧作業に取り掛かったものの「どうせ全部チャラなんだから」と、マシンそのものを新規に設計・開発した人を知っています。
Re: (スコア:0)
その節は大変お手数かけました。
Re: (スコア:0)
とりあえずファーストサーバの件も、関連リンクに上がってて安心した。
https://security.srad.jp/story/12/08/01/0057216/ [security.srad.jp]
「ファーストサーバ データ消失オフ『データはどこへ消えた?』」
「天に召されたデータに献杯!」
http://www.atmarkit.co.jp/ait/articles/1207/20/news149.html [atmarkit.co.jp]
Re: (スコア:0)
rootディレクトリでroot権限で作業中、間違って rm -rf * を実行してしまい、復旧作業に取り掛かったものの「どうせ全部チャラなんだから」と、マシンそのものを新規に設計・開発した人を知っています。
日本では
とかじゃないよね?
Re: (スコア:0)
まちがって「 rm -fr * 」なんですか?
rm -fr / tmp/IJrelkdjo/ みたいな間違いではないのですね?
日本ではファーストサーバが原状回復が不可能な削除をやらかしてしまった事故がありましたけど、そっちも似たようなミスだったのかな。
以下「バルス」禁止 (スコア:1)
強力なコマンドを残しておくと大変だよね(棒
Re:以下「バルス」禁止 (スコア:1)
トークンと生体認証が必要な非常手段だから
復旧 部門より じゃねーよ (スコア:1)
他人事ではない 部門なのでは?
Re:復旧 部門より じゃねーよ (スコア:1)
重要な入力を惰性で行っている感じ?
現場でもわりとこういう人居る気がします。
自分がミスしないと信じていると言うよりミスしたことを覚えていないんだろうなあ。
Re: (スコア:0)
危険なのでこうすべきという提案を上にあげる
→わかったけどそんなコストは払えないと却下される
→じゃあ何が起きても俺は知らん
という人だっているんですよ?
何かが起きる
→何とかしろと言われる
→はいはいじゃあ止めるね
→止めるな
→止まるからこうしろってのは前に言ったよね?
→じゃあ最短で
までがテンプレだけど。
本当にタイプミスなのか? (スコア:0)
アマゾンの発表では
> At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.
誤って入力されたとだけ書いてあり、タイプミスだとはどこにも書いていないのだが、リンク先の三紙はいったいどこからtypoだという情報を仕入れたのだろう
アマゾンほどの会社がタイプミスにこんなに脆弱だとは考えにくいのだよ
それとも買いかぶりすぎなのだろうか
Re: (スコア:0)
「タイプミス」って言葉が押すキーを間違えたってことか、防げえる誤入力なのかはわからない
Re: (スコア:0)
100と入れるべきところに、100と入れようとして、手が滑って1000と入力してしまい、それが受け付けられたのなら、ずいぶんお粗末な話です
Re:本当にタイプミスなのか? (スコア:2)
滅多に使わない機能なんて、まあ、そんなもんよ
Re: (スコア:0)
コンビニの誤発注とか見るとよくありそうな話ですが。
Re: (スコア:0)
いい加減システムの方で何とかすべきだとおもうんだ。
# SVとか本部は右から左にうけながしているだけですって無能の宣伝をしているって気づけ。
あと、あのネタも「一回だけ面白いもの」だとおもうんだけどな。
そろそろ痛い目みる店が出てきてもおかしくないとおもうんだ。
# そもそも誤発注じゃなくて、プロモーションだったりしてな。
Re: (スコア:0)
いい加減システムの方で何とかすべきだとおもうんだ。
# SVとか本部は右から左にうけながしているだけですって無能の宣伝をしているって気づけ。
なにを言いたいのかさっぱりわからない。
本部?もしかして人間が注文を処理していると思っているの?
あと、あのネタも「一回だけ面白いもの」だとおもうんだけどな。
なんも面白くもありません。
面白いものとか言わないでください。
そろそろ痛い目みる店が出てきてもおかしくないとおもうんだ。
もう十分痛いよ。
その痛みをちょっとでも減らすために必死になって売りさばいているだけで大赤字には変わりない。
Re: (スコア:0)
# そもそも誤発注じゃなくて、プロモーションだったりしてな。
非道い!
言っていいことと悪いことがある。
Re: (スコア:0)
ご発注はフランチャイズ元から見れば美味しい
Re: (スコア:0)
ていうか、10倍誤発注しちゃったをたまに見るけど、ちゃんと捌き切れるのなら、普段からいっぱい売れよっていう
Re: (スコア:0)
ちゃんと捌き切れるのなら、
なにをどう読んでるの?
Re: (スコア:0)
> いい加減システムの方で何とかすべきだとおもうんだ。
うん。いい意見ですね。
で、具体的にはどうするんでしょうか?
Re: (スコア:0)
常に入力した1/10の量しか発注しないシステムを作るんだよ
Re: (スコア:0)
その結果某MAGIシステムのように緊急シャットダウンしようとしても
落とせなくなるわけですねわかります。
まあ物理的に複数の箇所からの入力が必要なようにするとかは
参考にしていいとは思うけど、それをどうセキュアに実装するかという
問題はついてまわるんだろうねぇ。
Re: (スコア:0)
「防げえる」
Re: (スコア:0)
スラドにコメント削除の機能があれば良かったな
Re:本当にタイプミスなのか? (スコア:2)
誤入力なのかはわからない
Re: (スコア:0)
「誤って入力された」か「タイプミス」かでなにかAmazonの評価が変わるか?
Re: (スコア:0)
ニュースの正確な伝達性が問われるだけだよ
Re: (スコア:0)
アマゾンは人工知能に熱心ですから、当然、重大な操作については怪しいものに人工知能が警告を出すシステムを構築していると思われます
再起動時の整合性チェック (スコア:0)
ext* 系のファイルシステムを使っていて、
"Check interval" に引っかかってfsck が起動時にかかったのですね。
システム構築時に適切な設定にしておけば良かったですね。