アカウント名:
パスワード:
復旧優先を「問題解明」より上位として対応すべしというのがある。再発防止のためには、何かしら調べる必要がある..じゃ、その調べるスクリプトでも仕込んでおけ。完全な情報を取り出す?いかれたシステムから取り出せると?
そういった議論がちょこっとあったりするな。で、原因不明の事象でシステムがたちいかなくなった場合に、事前にどうするか?を決めているわけで、上記はそのひとつの例。調査用時間は通報があってから、システムの稼働継続がある場合、5分のみとかね。
判らないことが起こるのは、仕方がないけど、それが起こった時にどうするか?の事前の決めがあ
>だから「リブートすれば復旧するの?」って話はもうさんざん出てるでしょ
じゃ、止めておけと?
>> じゃ、止めておけと?
キミは「起動できそうだということが確認できている状態」とか「問題がある程度切り分けられている」とかいう前提で書いてるのかもしれんが,現実に「今はOS自体は動いているが,リブートかけたらマトモに起動すらできない」っていう状態はあるわけで,「トラブったら,とりあえずリブート」って話は無いと思う.
>リブートかけたらマトモに起動すらできない」っていう状態はあるわけで,「トラブったら,とりあえずリブート」って話は無いと思う.
それが、代案なき反論なんだよね。サービス/OSが停止しました、調査します、うん、調査分析対応まで5分以内にね...ができるとうれしいな。
調査する立場、すなわち技術者の立場なら原因究明を優先したいのはもちろん理解できます。しかしシステムは技術者のために動いているのではなく、利用者のために動いているのです。
システムが停止した場合、まずは「動くようにするためにはどうすればいいのか」を考えなければならないのが、運用現場の現実です。反論はあるでしょうが、それはあくまで技術者的立場で見た場合。
利用者が、「原因究明を優先してくれ、それまでいつまでもサービス停止してもかまわない」と言わない限りはね。
>利用者が、「原因究明を優先してくれ、それまでいつまでもサービス停止してもかまわない」と言わない限りはね。
それ、たまにあったりする。でもって、開発、OS系、ミドル系など各社での責任の押付/判りません会議をやってもらう。現場としては倒れたサーバへの電源供給だけでよくなるので楽だったりします。
でもって、「わからないのでリブート」とか、数日後にくるわけで、「がんばりましたねぇ、さすがです、わたしらが即座に提案したリブートと同じことを数日かけて決定されるとは..www」といったことが多かったな。システムダンプが役立ったのは、実はあるのだけど、これはOSの不具合の国内初の遭遇だったらしくて、数日したら暫定対応策(リブート)と、さらに後に回避策(この機能とこの機能はいっしょに使うな)で、2ヶ月くらいしてパッチがでてきた。つまり、これも原因が判って対応するまで再起動しないとすると、2ヶ月停止してろということ。リース代、だれがもつのだろう?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs
復旧優先 (スコア:0)
復旧優先を「問題解明」より上位として対応すべしというのがある。
再発防止のためには、何かしら調べる必要がある..じゃ、その調べるスクリプトでも仕込んでおけ。
完全な情報を取り出す?いかれたシステムから取り出せると?
そういった議論がちょこっとあったりするな。
で、原因不明の事象でシステムがたちいかなくなった場合に、事前にどうするか?を決めているわけで、上記はそのひとつの例。
調査用時間は通報があってから、システムの稼働継続がある場合、5分のみとかね。
判らないことが起こるのは、仕方がないけど、それが起こった時にどうするか?の事前の決めがあ
Re: (スコア:0)
Re: (スコア:1)
>だから「リブートすれば復旧するの?」って話はもうさんざん出てるでしょ
じゃ、止めておけと?
Re: (スコア:0)
>> じゃ、止めておけと?
キミは「起動できそうだということが確認できている状態」とか「問題がある程度切り分けられている」とかいう前提で書いてるのかもしれんが,現実に「今はOS自体は動いているが,リブートかけたらマトモに起動すらできない」っていう状態はあるわけで,「トラブったら,とりあえずリブート」って話は無いと思う.
Re: (スコア:1)
>リブートかけたらマトモに起動すらできない」っていう状態はあるわけで,「トラブったら,とりあえずリブート」って話は無いと思う.
それが、代案なき反論なんだよね。
サービス/OSが停止しました、調査します、うん、調査分析対応まで5分以内にね...ができるとうれしいな。
Re: (スコア:0)
Re: (スコア:0)
調査する立場、すなわち技術者の立場なら原因究明を優先したいのはもちろん理解できます。
しかしシステムは技術者のために動いているのではなく、利用者のために動いているのです。
システムが停止した場合、まずは「動くようにするためにはどうすればいいのか」を考えなければならないのが、運用現場の現実です。
反論はあるでしょうが、それはあくまで技術者的立場で見た場合。
利用者が、「原因究明を優先してくれ、それまでいつまでもサービス停止してもかまわない」と言わない限りはね。
Re:復旧優先 (スコア:1)
>利用者が、「原因究明を優先してくれ、それまでいつまでもサービス停止してもかまわない」と言わない限りはね。
それ、たまにあったりする。
でもって、開発、OS系、ミドル系など各社での責任の押付/判りません会議をやってもらう。
現場としては倒れたサーバへの電源供給だけでよくなるので楽だったりします。
でもって、「わからないのでリブート」とか、数日後にくるわけで、「がんばりましたねぇ、さすがです、わたしらが即座に提案したリブートと同じことを数日かけて決定されるとは..www」といったことが多かったな。
システムダンプが役立ったのは、実はあるのだけど、これはOSの不具合の国内初の遭遇だったらしくて、数日したら暫定対応策(リブート)と、さらに後に回避策(この機能とこの機能はいっしょに使うな)で、2ヶ月くらいしてパッチがでてきた。
つまり、これも原因が判って対応するまで再起動しないとすると、2ヶ月停止してろということ。リース代、だれがもつのだろう?