bugbirdの日記: セキュリティというと…
まず「機密性」の事を考えるのが一般的傾向だと思うのだけど、今回の西武新宿線の事故の場合は、セキュリティが担保しなければならない残りの二つの要素「完全(同一)性」「可用性」が喪失することによって事故が顕在化したわけだ。
報道によると、障害を起こした信号管制装置の電源装置は4系統あって、そのうちの2系統までが故障しても運用継続可能な設計となっていたということだ。しかしながら、実はこの実装状態では電源が4重化されているとはいえない。考えてはいけない。せいぜいやや冗長な2重化というべき状況なのである。
多分、管制装置全体の消費電力から逆算して、汎用設計されている電源装置を4系統併用する設計であったと推測されるのだけど、まぁ可用性確保のための冗長化設計として評価するなら、これで充分に要件を満たしているものと考えて良いとは思う。
では、なぜ7時間もの間、可用性が喪失する事態となったのか? 「4系統がすべて故障する事態は想定していなかった」との広報が流れているけれども、実際は3系統が故障した段階で管制装置は停止するわけだし、上記の推測通りであれば、残りの1系統の電源装置も過負荷によって停止するか故障することになるわけだ。先に『冗長な2重化』と評した理由はここにある。
次に、3系統以上が本当に一遍に死んだのか? という疑問も残る。報道によれば「神奈川県から故障した装置の代替品を確保する為に時間がかかった」という情報も流れていたわけで、実はそれがこの電源装置の障害対応のマニュアルであった可能性が高い。『『4重化』されているのだから、当該装置単体についてはこれだけのダウンタイムを許容しても良い』という運用設計では無かったのか? という疑問がある。
さらに、3系統以上が一遍に死ぬ、という問題については、もうひとつ、ロット管理という問題がある。
スクラッチで RAID5 以上のストレージシステムを構築・運用した経験がある方ならば、スペアの再構成中に残りの HDD も壊れて大慌て、となった経験を持っている方も少なからずおられると思う。ロットが同じか近接している HDD を使用すると、同じような経年劣化をしているために、スペア再構成のような高負荷をかけると、のこりの HDD にもとどめを刺してしまってこう云う事態になるわけだ。
一方ベンダが提供しているような高価なストレージシステムの場合は、HDD のロットが厳密に管理されていて、こうした事故を防ぐように配慮された機器構成となっているのが普通だ。よって、このようなロット管理がその電源装置には摘要されていたのだろうか? という疑問も残る。
また、前半の推測が正しければ、電源装置は汎用設計されているものであって、それほど高価なものではなかった可能性もあり、それならばなぜ代替機を用意していなかったのか? という疑問も残る(報道によると『障害発生の切り分けに手間取って待機させていた代替機を適用するまでに時間がかかった』との情報もあるが、切り分けの対象要素が4つある場合は総当たりで24通りのケースを検証する必要があるわけで、4つの電源装置という構成が却って仇になった可能性も考えられる)。
いろいろと、厳しい事を書いてきているわけだが、7時間というダウンタイムが現実として発生した以上、設計と運用に何らかの問題があった …と、考えるべき事故である。特に後者の運用については、運用設計の陥穽ということで、自らの関わっている運用についてそれを振り返るべき問題でもある。
願わくば、これらの疑問を明らかにするべく、詳細な事故報告が公開されて欲しいものであると思う。
セキュリティというと… More ログイン