nidakの日記: サービス停止!さて、次の行動は? 1
日記 by
nidak
今まで生きて来た中で、サービスが停止したとか言う時に
・即時サービス復旧を目指す
・現状を確かめて原因を究明してからサービスを復旧させる
と言う二つの対応を取らされたのだが、個人的には最初にサービス復活させるの当然じゃないの?なんて思っている。他の企業はどうなんだろう?後者の方はサービス戻すのは簡単だけど、それやっちゃうと原因が特定出来なくなるからってのが理由らしいが、株取引とかそんなシステムだったら死ぬよね。まあ、そういうシステムは冗長構成もしっかりしているから、いざって時も取りあえずはサービス死なずに動いているだろうけど。
予算があってシステムがあるから、予算出せないところは冗長構成が組めずにサービスが死ぬと終了って構成はあるかも知れないけど、それにしてもサービス停止が長く続くのはユーザ離れにも繋がるし(Twitterは例外?)、機会損失増やしているように思えるわけで、それはそれで相手に不利益与えているなぁ、と。
Re:ぱんつにウンコがついても恥ずかしくないもん (スコア:0)
障害発生でサービスが停止するパターンが決まっているようなら
原因追求を行わずに即復帰を目指しますが
原因がまったく不明の場合、原因を追究してからの復帰になることもあります。
ただし
大規模システムでは、そもそもソフト・ハード共に
冗長化されていないことがないし同時に検証用の
システムがあるので 同時並行というのが普通です。
つまり、障害が発生している運用系は、原因追及をあとにして
サービス復帰をメインに勧め、検証用システムで原因追求を行う。
また
公共性の高いサービスが停止した場合は、ほぼ即時復旧が優先されますが
それでも復旧できない場合は、原因追求に切り替えます。
(ニュースになった時点ですでに原因追求になっていることが・・・)
どちらにしても事件は現場で起こっているわけで
うおさお状態ですよ~。