パスワードを忘れた? アカウント作成
671403 journal

hixの日記: 生立 2

日記 by hix
友人亭でサーバが故障したので見て欲しいと頼まれた。

コンパッキューProsignia SERVER 720で SCSIなHDDx2。
ミラーリングしているものの、Windows NT4.0のソフトウェアミラー。
常時電源入れの状態なのだが、配置換えのため電源を切断したところ、ミラーしている2台のうちのマスタ側のHDDが回らなくなったらしい。
ま、電源断→再投入がサーバのトラブル関連で最も恐ろしい時間帯ではある。
それならば回らないHDDを捨ててミラー側から起動させればOKなのではないか?と思われるだろうが(話を聞いたときは拙者もそう思った)、うまく起動しないのだそうだ。

現場に行って見ると「NTLDRが見つからない」とかなんとかが出て起動しない。ここまでの状況確認ができたので、IDEのHDDを繋いでPlamo-LinuxをCDブートしてミラー側HDDのバックアップを取ることにした。カイシャを辞めてからというもの、修理作業はトンとしていなかったので、IDEのケーブルを忘れて買いに行ったり起動用のディスケットを忘れて取りに行ったりと、散々であった。
またインストーラであるが故、ツールやKernelの設定が完全ではないので、ファイルサイズの4Gの壁にぶち当たりバックアップが途中までしか出来なかった。
仕方が無いのでIDE-HDDにPlamo-Linuxをインストールし、再度バックアップ。
そうこうしているうちにメンテ業者が交換用のHDDを持って到着。
「SCSI IDを0にして起動すれば起動しませんかね?」と言いながら、それを試すが状況は変化無し。
パーテーションタイプを変えてみたりMBRを再初期化してみたりしても状況は改善されず。
fdiskで他パーテーションをactiveにしてそちらからブートさせようとすると一応意図した動作をするので、MBRは問題無いようだ。
WindowsNTでフォーマットしたディスケットに、ミラー側に入っている起動用のファイルを入れて、フロッピーブートを試みるとめでたく起動した。
となると、怪しいのはWinNTが入っているパーテーションのブートセクタ。
しかしマスタ側のHDDからミラーされているのだから、マスタ側が生きていた時に起動できなかったハズ…。確かめたくても、既に取り外されたマスタ側のHDDは回る力も無い状態。死人は口を利いてくれない。
色々調べているうち、Compaqサーバ特有のEISA管理パーテーションが空であることをメンテ屋さんが確認。
これはWinNTのミラーリングの管理外のパーテーションである。
可能性として、マスタ側はきちんと中身が入っていて、ブート時はEISA管理パーテーションのブートローダがNTLDRを呼んでいたのかも知れない。死人は口を利いてくれないので真相はわからない。

稼動を急がねばならなかったので、元通りに復旧させることは後回しにして、ディスケットブート可能とした(ブートさえしてしまえば元と同じになる)。

データの損失は無かったものの、ミラー側がマスタ側と同じ動きをしないのであれば、何のためにHDDをミラーリングしているのか解らない。
復旧に72時間も掛かっている。長時間停止せざるを得なかった原因は、ミラー側HDDの生い立ちの問題だ。
元々このサーバを構築したのは名の知れているベンダである。名の知れているベンダほどアテにならないものはない。残念だが、これは良くある話だ。

交換用のHDDを持ってきてくれたメンテ屋さんであるが、一般的に、メンテ業者は蓋の開け閉めで「技術料でございます」と言って暴害なカネをふんだくって「ダメでございます」と言ってガキの使いの役にも立たない場合が多いので、HDDを置いてとっとと帰ってもらおうと思っていた。例えば、RAIDの再構築をするのに、たった今交換したHDDをマスタに指定して既存のHDDを真っ更にするようなことは平気でやらかす。

しかし、今日のメンテ屋さんは、さすがに今回は苦戦したようであるが、少なくとも拙者よりは事例を知っていた。威張らないし、「シロートよりは知っている」などと変なプライドを見せないし、大変好感が持てた。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by int20 (12391) on 2003年07月09日 0時54分 (#354813) 日記
    Gentoo LinuxのブートCDはかなり使えます。
    是非お試しください。

    RAIDの復旧はどんな感じなのかなーと思ってたところなので、ちょっと参考になりました。
    WindowsではなくLinuxですが、ソフトウェアRAIDでやってます。
    # 壊れたら呼ばれるんだろなぁ。。。ぅぅ

    なにはともあれ、おつかれさまでした。
    • by hix (3507) on 2003年07月09日 1時26分 (#354833) 日記
      「バックアップ環境を構築したらリストア手順は試しておけ」とよく言われますが、RAIDも同様ですね。
      電源を繋がないなりコネクタを外すなりして、メイン側が吹っ飛んだことを想定して試しておかないと、復旧が遅れるばかりか最悪OSの再インストールから行わなければならず元通りにするのにエラく苦労します(今回もその可能性はありました)。

      NTのミラーリングもディスク単位でミラーできればよいのですが、パーテーション単位でしか出来ないので、全く同じ物の複製にはなりません。
      それも今回手間が掛かった原因の一つですね。
      尤も、Prosignia SERVER 720の時代ではハードウェアRAIDは廉価レンジでの流行ではなかったので、ソフトウェアミラーに頼らざるを得ないのですが。
      今ならIDEなハードウェアRAIDでしょうかね?

      Gentoo Linux…今度試してみます。
      PlamoとSlackとRedHatを持っていて、RedHatは違うな…と思ってPlamoを持っていきました。
      そうそう、このテのことをするのに、TurboLinuxは間違っても選んじゃダメですね。
      確か、放っとくと勝手にHDD初期化の手順からインストールを始めてくれるバージョンがあったような…
      親コメント
typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...