Oliverの日記: RAID5崩壊
木曜日の午後6時29分、大学の職場を出ようとする15分ほど前に異常が起きた。同僚を含め、約半分のユーザのセッションが止まってしまったので。症状としては彼らの/homeが置いてあるサーバの問題だ。
で、サーバルームに行ってみると、あちゃー。RAID5サブシステムのひとつの3台のHDDに赤いランプがついてら。12台収容の外付SCSIケースに入っているHDDが2個、サーバ内部に入っているのが1台。なんでじゃ。まわらなくなっているわけではなく、特に温度が高いわけでもない。同じSCSIケースに入っている別サーバ接続のサブシステムは問題ないし、同じサーバに継っている別のサブシステムも異常はなさそうだ。2年以上も無停止だったのが、ここ1週間で2度も停電によって停止させたので本当は問題であってはいけない高負荷がかかったのかも。だとしても数十台のディスクのうち、よりによって同じサブシステムのディスクばかりがヤラれるか?
1台止まっても大丈夫なRAID5も3台とまっちゃえば救えないな。運の良い事に問題のサブシステムにはローカルバックアップを収容しているパーティションとルートが入っていただけで、/homeは大丈夫。
ところが、.... Mylex DAC960ステ。このシステムを買った当時は予算の都合でサーバ搭載のRAIDコントローラがRAIDを制御するシステムになったのだが、こいつがサイテー。起動時にBIOSが読み込まれる段階で「Logical Volume 0のディスクX, Y, Zが死んでる」と文句をいって、ディスクが無事なLogical Volume 1を触らせてくれない。サーバ付属のWindows NTな起動CDと専用ツールを使ってなんとか説得できるか試みるが、ダメだった。無事なLogical Volume 1を消さないとLogical Volume 0を削除できんてどういう事やねん。無事なサブシステムにアクセスできんとは使えないやつだ。しかも、コントローラがRAID構成情報を持っているので別マシンに繋げられもしない。
そこに座っていて傷なく/home抱えているディスクを復旧するのを諦め、学生の12時間分の労働を無にするバックアップからの復旧を決めた。この時点で朝4時。
バックアップといっても復旧しなければいけないデータは約500GB。街の反対側にある計算機センターのテープロボットが管理している。いくら回線が2Gbpsで新サーバにギガビットカードが刺さっていてもロボットがボトルネック。半日かかったよ。
教訓:RAIDを信用するな;バックアップのリストアは永遠にかかる;予備に使える用に実験/遊び用サーバは常備しよう;巨大なSCSIディスクにみえるタイプの独立型RAIDシステム推奨
これで前の世代のサーバ群もしばらく前から導入しているサーバにとっては巨大なSCSIディスクにみえるタイプのRAIDシステムに置き換わるかもしれない。中身がIDEでも十分な信頼性があり、速度的にも変わらない事がここ一年で確信できたし、倍高いSCSIディスクなシステムを買うよりIDEで同じ容量のRAID5システムを2個買っIntermezzoみたいな分散型Hi-Availabilityファイルシステムを使うのが正解だ。
ここ数ヵ月試験中だった構成がこれでいっきに本採用だな。しかし、徹夜は辛い。もう若くないのかな。
RAID5崩壊 More ログイン