パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

UNIXサーバはリブートすべきでない説」記事へのコメント

  • 復旧優先を「問題解明」より上位として対応すべしというのがある。
    再発防止のためには、何かしら調べる必要がある..じゃ、その調べるスクリプトでも仕込んでおけ。
    完全な情報を取り出す?いかれたシステムから取り出せると?

    そういった議論がちょこっとあったりするな。
    で、原因不明の事象でシステムがたちいかなくなった場合に、事前にどうするか?を決めているわけで、上記はそのひとつの例。
    調査用時間は通報があってから、システムの稼働継続がある場合、5分のみとかね。

    判らないことが起こるのは、仕方がないけど、それが起こった時にどうするか?の事前の決めがあ

    • by Anonymous Coward
      だから「リブートすれば復旧するの?」って話はもうさんざん出てるでしょ
      • >だから「リブートすれば復旧するの?」って話はもうさんざん出てるでしょ

        じゃ、止めておけと?

        • by Anonymous Coward

          >> じゃ、止めておけと?

          キミは「起動できそうだということが確認できている状態」とか「問題がある程度切り分けられている」とかいう前提で書いてるのかもしれんが,現実に「今はOS自体は動いているが,リブートかけたらマトモに起動すらできない」っていう状態はあるわけで,「トラブったら,とりあえずリブート」って話は無いと思う.

          • by cm (41778) on 2011年02月23日 22時57分 (#1907466)

            >リブートかけたらマトモに起動すらできない」っていう状態はあるわけで,「トラブったら,とりあえずリブート」って話は無いと思う.

            それが、代案なき反論なんだよね。
            サービス/OSが停止しました、調査します、うん、調査分析対応まで5分以内にね...ができるとうれしいな。

            親コメント
            • by Anonymous Coward
              自分が調査する立場で考えてみたらどうですか?
              • by cm (41778) on 2011年02月24日 14時49分 (#1907798)

                >自分が調査する立場で考えてみたらどうですか?

                はい、当然、判らない方が多いので、リブートによる早期復旧か、時間をかけてのダンプ取得(無駄率99%)後の対処(時間早くて4時間、下手したら数日してわからん)かを責任者さんに「今、わかるのはこれだけです」として判断してもらいますよ。
                そういった実績とか、ちゃんと出来ない癖にダンプとれとか言う馬鹿は現場には不要ですからね。

                親コメント
              • by Anonymous Coward

                調査する立場、すなわち技術者の立場なら原因究明を優先したいのはもちろん理解できます。
                しかしシステムは技術者のために動いているのではなく、利用者のために動いているのです。

                システムが停止した場合、まずは「動くようにするためにはどうすればいいのか」を考えなければならないのが、運用現場の現実です。
                反論はあるでしょうが、それはあくまで技術者的立場で見た場合。

                利用者が、「原因究明を優先してくれ、それまでいつまでもサービス停止してもかまわない」と言わない限りはね。

              • by cm (41778) on 2011年02月24日 14時56分 (#1907800)

                >利用者が、「原因究明を優先してくれ、それまでいつまでもサービス停止してもかまわない」と言わない限りはね。

                それ、たまにあったりする。
                でもって、開発、OS系、ミドル系など各社での責任の押付/判りません会議をやってもらう。
                現場としては倒れたサーバへの電源供給だけでよくなるので楽だったりします。

                でもって、「わからないのでリブート」とか、数日後にくるわけで、「がんばりましたねぇ、さすがです、わたしらが即座に提案したリブートと同じことを数日かけて決定されるとは..www」といったことが多かったな。
                システムダンプが役立ったのは、実はあるのだけど、これはOSの不具合の国内初の遭遇だったらしくて、数日したら暫定対応策(リブート)と、さらに後に回避策(この機能とこの機能はいっしょに使うな)で、2ヶ月くらいしてパッチがでてきた。
                つまり、これも原因が判って対応するまで再起動しないとすると、2ヶ月停止してろということ。リース代、だれがもつのだろう?

                親コメント
            • by Anonymous Coward

              サービス停止が5分しか許されないシステムってなら
              普通は予備系存在しますよね

              さすがに言いがかりのために言ってるとしか思えないんだが

              • by cm (41778) on 2011年02月24日 14時58分 (#1907802)

                >サービス停止が5分しか許されないシステムってなら
                >普通は予備系存在しますよね

                ええ、当然、予備系について提案はしますが、ない金についてどう振るかについては技術者の範疇を越えていますね。

                >さすがに言いがかりのために言ってるとしか思えないんだが

                予備系に切り換えるためには、現行系のダウンなり切り離しが必要になるのですが、そういったことも遅延させるわけなんで、ほんと、リブートするなってのは、言いがかりみたいなもんですよね。

                親コメント
              • by Anonymous Coward

                予備系切り替えるのに全システムダウンが必要なシステムしか見たこと無いんですか?
                ホットスタンバイって聞いたこと無いですか?

                アクセス用のIPとかの一部資源を運用系に引き渡すだけで
                切り替えることが可能に出来るでしょう

                系の切り替えにOS再起動なんて必要ない
                普通に短時間のサービス停止を許容できないような物は
                まさに動作装置切り替えるだけです
                再起動なんて時間のかかる処理やってる暇なんて無いんですよ
                金ケチって全構成装置二重化構成になってない
                そういうのを前提にシステムを組んで無いってなら別ですけどね

                通常止める必要の無い処理までやってるから言いがかりって言われるんですよ

              • by cm (41778) on 2011年02月26日 4時20分 (#1908606)

                >予備系切り替えるのに全システムダウンが必要なシステムしか見たこと無いんですか?

                フェイルオーバ発生させて、現行障害発生機の状態完全保存するシステムをお持ちなんですね。
                どういったシステムなんですか?ぶっつりFCとかネット切断で疑似HW障害で切り換えても状況がかわるクラスタシステムしか、わたしのそばにはない。
                予備系として完全別システムであっても、そのIPとストレージについては引き継ぐわけで、その切り離しが行われる。もしかして、同時に連携がなくなったアクセス可能ストレージと、同時に同じIPが現れても問題ないシステム環境なのでしょうかね?

                >ホットスタンバイって聞いたこと無いですか?

                なにも引き継がないシステムを前提にされちゃって、ホットスタンバイとか知ったかぶりをされない方がよろしいですよ。

                >系の切り替えにOS再起動なんて必要ない

                クラスタの場合はね。でも切り替えによって、サービス移管やらが起こるということはご存知ない様ですな。

                >再起動なんて時間のかかる処理やってる暇なんて無いんですよ
                >金ケチって全構成装置二重化構成になってない

                クラスタの場合、系きりかえで状態が変わる。
                クラスタでない場合、ネットワークやストレージが切り替わる。
                この程度を理解されてからコンピュータ関係のお仕事に就かれるとよいでしょう。

                >通常止める必要の無い処理までやってるから言いがかりって言われるんですよ

                止める必要がないのであれば、止めませんよ。
                サービスに異常がある場合だけですからね。

                親コメント
            • by Anonymous Coward

              >> それが、代案なき反論なんだよね。

              へー,「このままじゃ起動できずにコケる」とわかってて再起動かけるわけ?「起動すらできない=復旧作業すらできなくなる」ことが明らかなのに,どうせ解決できないならどちらがマシかを考えず「えい,再起動しちゃえ!」ってのは心底バカな人間がやることだと思うね.

              要は「最善な選択」が存在せず「最悪な選択と,もっと最悪な選択」しかない状況なわけで,それを「じゃ,どうすりゃいいんだよ」ってのは「こんなドツボな状況に陥るような管理をしたことを後悔・反省しながら,現状を調べて起動できる状態に修復する」としか言いようが無い.

              • by cm (41778) on 2011年02月24日 15時00分 (#1907803)

                >へー,「このままじゃ起動できずにコケる」とわかってて再起動かけるわけ?

                え?わかっている?じゃ、対策だしてね。
                それで終わり。

                >「起動すらできない=復旧作業すらできなくなる」ことが明らかなのに,

                はやく、代案言ってよね。

                >現状を調べて起動できる状態に修復する」としか言いようが無い.

                つまり、代案なしで言う、あの馬鹿連中ということでしたか...
                ほんと、代案ないと駄目だよといっているのに、また駄目なことを言うお方って...

                親コメント
              • by cm (41778) on 2011年02月24日 15時41分 (#1907825)

                でもって、復旧優先が言われる様になった原因が「ダンプ」「ログ」と情報不足、いわゆるフルダンプ/フルログであっても、無力であったケースが多々ある。
                逆に、「ダンプとらない」「少ないログ取得」であって無力であったケースで調査元が、「ダンプがあればわかった」「フルログがあればわかった」と明言しない。
                また、「ログが少ないのでわかりません」「ダンプがないでわかりません」というベンダーに次回「じゃ、全部とったから原因を確実に究明せよ」と申し渡すと「出来ないこともあります」

                で、最後に某社に聞いてみたんだ、「ログレベル/ダンプ取得有無での解明率の差を示してくれ」,,,そういう統計はないそうで、それだったら、「フルログ/ダンプが解明するために必要だと、どうして言えるのだ?そもそもそれがあることで判ると言っているんだよな?なのに、それがあっても判らないという事があってもよいと思うのか?」ということで、相手が詰まった。

                結局、統計的にも裏打ちされていない迷信を言っているレベルでしかなかったわけなんだな。
                判る事もある、時間があったら取っておいて下さい...と、論調がダウンしたのが、笑えた。

                親コメント

日本発のオープンソースソフトウェアは42件 -- ある官僚

処理中...