M-FalconSkyの日記: 原因分析のこととか 4
自分なりに、「原因分析(そしてなぜなぜ分析と解消)」について、考え、思いついたこと
頭の中で、平行かつ比喩も混ってなので、文章が酷いのは許して
========
例が悪いが、「なぜ日本は太平洋戦争をし、負けたのか?」なら
(分析として雑なのはご了承ください)
根本原因を探る方だと -> (分析)... -> 「ABCD包囲されたからなど」(たぶん違うんだけど、たとえばなので許して)、などの問題発生の原因にいく(その解決方法は戦争でも、交渉でも、技術開発でもよいが、資源不足、という問題があったというところ)
手段選択原因だと -> (分析)... -> 「軍事的、民間的に調子にのってたりマスコミが煽ったりで戦争を選択した」、というところになるかなと。
で、よくある「なぜなぜ分析」としては、根本原因自体を無くすことで、手段選択原因の発生自体を抑制してしまうのが正道なんだろうとも思う(し、この場合「戦争したのが悪い」だけだと、解決しないのは目に見えてて、間違いだろうと言えそう)
ただ、それとは別に根本原因が根絶できない(いつだって予想外でトラブルものだから)場合などのために、手段選択原因で悪手を選ばない、よりよい事後対策のための分析も必要なんだろうな
========
プログラマー/SE的な話に対応させると
戦争の負け -> 障害発生
ABCD包囲 -> 冗長化されていないサーバ、など根本的な弱点
調子乗り/煽り -> 人的な問題(障害時の対応が遅かった、とか)に落ち込むこと
「戦争したのが悪い(調子のんな/煽るな)」 -> 「対応が遅かった」など、対策に「緊急対応メンバーを交代制で待機させる」とかが設定されたりする悪手なやつ
的な
上の対応で問題の原因と対策を書くとこんな?かな
「障害発生の根本原因は冗長化されていないサーバがあったため、根本的な対処として、各サービス要素の対障害性を計算し、必要に応じてホット/コールドスタンバイ、多重化を行う」(根本の対応)
「それと併せ、障害対応時、対応が遅くなったこと自体は人的なので、初期対応など対応要員が必要となる時間を最小化しつつ、その時は即座に動けるよう輪番での緊急対応メンバーの待機とする」(今回発生における手段選択内での問題の最小化)
「その他の対応として、1.サーバが不具合になった再の障害案内ページなどへの自動的な転送などの設置と検証 2.リカバリ迅速化のための定期バックアップの内容の拡充と、リカバリの確実な実効の確認のため、準実運用でのリカバリテストの定期実施 ...」(その他の手段選択の選出とか、そのときの問題性の低減とか)
とかをやるのが、理想かなあ...?
========
そして私はこの手の分析が絶望的に下手だ。
あんまり読んでいないけど (スコア:2)
『障害が発生したから負けた』とするのが良いかなって。
冗長化って何よ (スコア:0)
そんな昔の話しなくても今でもあまり状況は変わってないと思うぞ
Re:冗長化って何よ (スコア:1)
いちおう、こういうもの https://ja.wikipedia.org/wiki/%E5%86%97%E9%95%B7%E5%8C%96 [wikipedia.org]
なお、例は仮で当てたもので、こういう事例を実際になにかした、とかはないです(サーバ立てたことはないわけではないけど、面倒を見たことはないので)
M-FalconSky (暑いか寒い)
根本原因(資源不足)をなくす (スコア:0)
どう考えても無理ゲー