パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

神戸新聞のシステム障害はOracle9iのバグが原因」記事へのコメント

  • by snitch (10903) on 2007年10月02日 1時49分 (#1227582) 日記
    9/28にOracleのサポート情報に今回の障害に該当すると思われる情報がリリースされています。

    SHUTDOWN ABORT を含む強制終了後の次回インスタンス起動時に、ORA-600[kcratr1_lostwrt] が発生しデータベースがオープンできない [oracle.co.jp]

    #珍しく公開区分が「一般公開」になっていますね。
    #いつもだと、「契約顧客のみ」なのに・・・

    ITProによるとサーバ2重化していたけれども駄目だったようですね。
    【続報】神戸新聞の制作システムが回復、サーバー2重化もDBで障害 [nikkeibp.co.jp]
    システム本体はメインとバックアップを用意していたものの、DBを冗長化していなかったため全体が利用できなくなった。


    神戸新聞のシステム障害はオラクルDBの問題、修正プログラム配布へ:ITpro [nikkeibp.co.jp]

    なお、神戸新聞のシステムは業務終了時の処理としてデータベースを「強制終了(shutdown abort)」する仕様となっており、同社側に運用面での問題はなかったという。


    NECでサーバ2重化となるとCLUSTERPROかftサーバになるんでしょうが、
    shutdown immediateさせずにわざわざshutodown abortになっていたのであれば
    以下のレジストリのSHUTDOWNTYPEをOracle 9iのデフォルトのi(immediate)からa(abort)に変えてあったか、CLUSTERPROの設定が悪かったのか・・・

    http://download-east.oracle.com/docs/html/B10163_01/registry.htm#g1015622 [oracle.com]
    • 22日発生で28日公開とかよっぽど絞られたんですかね。

      >shutdown immediateさせずにわざわざshutodown abortになっていたのであれば

      記事の感じからは意図せぬ形でabortになってたわけじゃなくて、
      たとえば1分以内に確実にshutdown 完了する必要があったとかでabortにしてたと見えますね。

      dbms_stats完了からcheckpoint発生までのあいだにabortしないと駄目なので、
      そういうバッチでも組んでいたんじゃないでしょうかね。

      しかしKrownみる限り、recoverも駄目ってことでバックアップからリストアして
      当てられるところまでアーカイブを適用がベストソリューションだったのかな。
      丸1日止めてしまった件については運用面で見直しが必要でしょうね。
    • サーバ2重化(クラスタ化)なら、NX7000 or 7700iでServiceGuardって可能性もありえます。 で、確かにServiceGuardでHA組んだとき、Shutdown Abortしてたなぁ・・・。

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

処理中...