パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

UNIXサーバはリブートすべきでない説」記事へのコメント

  • by Anonymous Coward on 2011年02月23日 18時58分 (#1907333)
    手動でdaemonを起動したことを忘れ、停電やハードウェアのメンテナンスで再起動したらdaemonが自動で上がってこず、なんていうトラブルがありますんで、UNIXであっても設定変更したらリブートして動作確認すべきです。

    いや、今回の話はデバッグしてからリブートしても遅くないぞっていう話だとは思うが。
    • BIOSのboot up after power failureの設定とか、kernel のreboot method の指定とか、リモートで出来ない設定もあってだな。
      親コメント
    • OSがラリっても一切エラーログを吐いてくれないときは大変なんだぜ.
      とくにそのままフリーズしちゃってるときは途方もない絶望を感じる.
      OSが動いていて原因究明の手がかりがあるだけマシだろ,とかおもっちゃう.

      というわけで,組込 Linux の話だけど,kernel panic すら起こさずにフリーズする現象に悩まされています.何のログもでてこないorz ラリる条件も不明 o|rz
      親コメント
      • by Anonymous Coward
        組み込みなら、フリーズ中にICEでメモリの中身を見れば手がかりがつかめるはず。
        ICEでとれないCPU内の情報は、NMIのハンドラでメモリの特定アドレスに書き出しておいて
        ICEで見る。
        ハードウェアのバグの可能性もあるので、ハード側のエンジニアと共同で、ロジアナ使って
        バスの状態も眺め、CPUが何をしているかを見る。

        ICEない、NMIがかけられない、ロジアナがないとかいうのは、システム開発体制の不備なので、そこから直す…ことができるといいなorz
      • by Anonymous Coward
        >OSがラリっても一切エラーログを吐いてくれないときは大変なんだぜ.
        >とくにそのままフリーズしちゃってるときは途方もない絶望を感じる.

        この辺りについても、ハングアップしたOSに強制的にダンプさせる機能を
        商用UNIX機だったら備えているので、そういうのを使うべきかな。

        上記機能も無ければ、ハードウェア障害時のマシンチェック(ハードウェア版の
        ダンプ機能みたいなもの)が無いような機械は触りたくないなあ。
        • >この辺りについても、ハングアップしたOSに強制的にダンプさせる機能を
          > 商用UNIX機だったら備えているので、そういうのを使うべきかな。

          ダンプしてベンダーになげて判りませんの割合が高いからね。
          そういうベンダーかどうか?も判断が必要だ。
          解析しないでどうこう..という話もあるが、解析できる能力があるかの問題も結構あるんだな。
          なので、まずは解析ありきみたいなひとつ覚えを言っても意味がないことがあるよ。

          >上記機能も無ければ、ハードウェア障害時のマシンチェック(ハードウェア版の
          > ダンプ機能みたいなもの)が無いような機械は触りたくないなあ。

          使う環境によっては、実機でのダンプ採取が意味がない..ならむしろそんなの
          とっぱずして安くなるんなら、とっぱらってもよいわけです。
          実機の精査のため、代替機提供で、実機のお持ち帰りの検証解析といったところ
          までをサポート側にて受けるなら、ダンプとかいらないだろうな。
          もちろん乗っているデータやソフトウェアについての守秘関係がちょっと
          ややこしいことになったりするけどね。

          親コメント
    • by Anonymous Coward
      元記事を読めば書いてありますが、デーモンの起動設定を忘れるのは初歩的なミスなのでリブートする理由にはならないとのこと。

      個人的には違う理由でリブート賛成派だけどね。例えばコア吐きまくりで作業に絶えないほど負荷が高いサーバーでイライラしながら作業するよりは、コアファイルだけ取ってリブートしてあとから解析する方が良いと思う。
      • by Anonymous Coward
        初歩的なミスなのでテスト不要というのは、どうだろうなぁ。
        どんな理由であれ、リブート試験をしないってのはダメだと思う。

        もちろん、一度ブートしたら決してリブートしないシステムなら、リブート試験はしなくてもいいが、そんな恐ろしいシステムは俺は触ったことがない。
        • >一度ブートしたら決してリブートしないシステムなら、リブート試験はしなくてもいいが、そんな恐ろしいシステムは俺は触ったことがない

          たぶん、そんな恐ろしいシステムになれちゃっているお方も多数いるのかもしれません。
          もしかしたら、何もしていない単なる箱をサーバと崇めている面白い宗教の方かもしれませんが...
          変更したら、影響をちゃんと調べる。
          調べている間に、再起動させて、正常に「別の問題でリブートしても、ソフトウェアとしては稼働する」という検証が必要なのですけどね、普通は...

          >初歩的なミスなのでテスト不要というのは、どうだろうなぁ。

          初歩的なミスをやっちまった状況で、他にミスがなかったとは言い切れない。
          まずは、サービスが正常に提供できることを、起動から停止までちゃんと調べないと、後日、痛い目にあうからね。

          >どんな理由であれ、リブート試験をしないってのはダメだと思う。

          クラスタなら、そのサービスが正常に遷移し戻しも含めて稼働することを検証しないとダメだし、単体サーバなら他のサーバと連携がある部分についても検査しないとね。
          結構、時間がかかる。ましてや、オンライン時間中とか24/365がサービスでの不具合は「調査したい、サービスを長時間とめてくれ」はあまり通らないからなぁ。

          親コメント

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

処理中...