パスワードを忘れた? アカウント作成
13932442 story
Oracle

大阪市のシステム障害、2ノードのOracleデータベースサーバーで同じシステムファイルが破損したことが原因 41

ストーリー by hylom
Oracleのバグだろうか 部門より

6月7日に大阪市のシステムで障害が発生するトラブルがあったが(過去記事)、このトラブルの発端は同システムが採用していたOracle Databaseのシステムファイル破損だったと日経xTECHが報じている

データベースはOracleのデータベースクラスタ技術「Oracle Real Application Clusters」を使って2重化されていたが、2ノードが稼働していたデータベースサーバーがほぼ同時に停止。調査を行ったところ、同じシステムファイルが破損していたことが分かったという。システムファイルを復旧させたところ、データベースは復旧したそうだ。

同じシステムファイルがなぜほぼ同時に破損したかは不明だという。

  • by Anonymous Coward on 2019年06月12日 19時38分 (#3632341)

    随分前にANAでもRACでトラブったの以前ニュースになってたね。
    正副自動で切り替える仕組みオフコンの頃からずーっとトラブルの元だが
    やっぱり人間がちゃんと運用していくには難しすぎるんじゃないのか
    もう諦めた方がいいんじゃないのか
    止まったら手で切り替えようよ
    それかビール飲んで忘れよう

    ここに返信
    • by Anonymous Coward

      賛成賛成

    • by Anonymous Coward

      Oracleライセンス費用が高くなりますがftServerはいかがでしょうか・・・

    • by Anonymous Coward
      > それかビール飲んで忘れよう
      北海道で飲むビールはうまいか?
    • by Anonymous Coward

      この手のシステムにはある仕組みが不可欠ですからね。
      そう。人類には早すぎると定評がある排他制御です!

      Quorum SystemなんかはもうMAGI Systemにしか見えないし、
      ブレインがスプリットしたり、全てを忘却したりで、いつ自立自爆が提訴されるか不安しかありません。

    • by Anonymous Coward

      本件ではないが、実は別の因子でDBが壊れる不具合はしってる

      • by Anonymous Coward

        後学のために教えて頂けますか

    • by Anonymous Coward

      いくつかの障害シナリオには役に立たず、御守りにしかならないことは分かっていても、Oracle RACは『顧客』に『安心』を提供してくれる。

      交通安全の御守りは「安全」じゃなく、「安心」を提供するのと同じ。

      高可用化ソリューションは、顧客が技術的な困難を理解するのが難しくても、1つより2つの方が良い、安心できるから売れているんだと思う。

      金持ちの不安解消のための商売は古今東西。占いとか無くならないのはそういう理由。

      この手のシステムの名誉のために言っておくと、
      まあ、完全保証なんて無理なんだから、99.99%のレベルでさ、諦めておこうよ。

      • by Anonymous Coward
        いやRACは可用性99.999%が売り文句だから。
  • by nekopon (1483) on 2019年06月25日 12時13分 (#3639864) 日記
    https://www.city.osaka.lg.jp/hodoshiryo/ictsenryakushitsu/0000474144.html [osaka.lg.jp] 大阪市いわくバグ。共有ストレージ上に「システムファイル」が置いてあるときにOracleがそいつを破損する問題があるそうな
    ここに返信
  • by Anonymous Coward on 2019年06月12日 17時42分 (#3632266)

    システム領域もミラーリングしていたのでは?

    ここに返信
  • by Anonymous Coward on 2019年06月12日 17時43分 (#3632268)
    PFILEなの?
    だったら設定変更でポカやったってだけだろOracleのせいにすんな
    ここに返信
    • by Anonymous Coward on 2019年06月12日 18時03分 (#3632289)

      「同じシステムファイルが壊れてOracleがこけた」だけで、どこにもOracleのせいだとは書かれてないんだけど

    • by Anonymous Coward

      PFILEではなく、SPFILEかと。
      PFILEって既に廃止になってるはず…

      • by Anonymous Coward

        でもEMで変更できないパラメータの場合、PFILEに戻してエディタで修正してSPFILEに戻す、
        なんて手順ですよね。
        起動しなくなるようなコマンド打ったり、アーカイブ領域の容量不足なんかでも同様ですし。

    • by Anonymous Coward

      うるせえな。
      責任の所在をあいまいにするためにオラクルに高い保守料払ってんだから黙ってろ!

  • by Anonymous Coward on 2019年06月12日 18時13分 (#3632291)

    バグを踏んだせいでは
    ミラーリングで同じ内容に同期していたなら同じデータで引っかかる可能性はある

    ここに返信
    • by Anonymous Coward

      しっかりとした大手に頼んだからシステムにバグなんてありえない
      向こうもバグではなく仕様と言っていましたし

    • by Anonymous Coward

      ビットエラーが同時に同一ファイルに起きるとか考えにくいしねぇ……
      立派なのは請求額だけ。
      なんでこんな会社が未だのうのうとやってんだか……採用する方も採用する方だぞ。

  • by Anonymous Coward on 2019年06月12日 19時20分 (#3632327)

    普通は稼働中にシステムファイルは書き換えない。
    破損するとすれば、更新中だったのか?
    それとも前回の更新などで今回の稼働前から壊れていて、アクセスした時に問題が浮上したのか?
    それともただの設定ファイルなどをシステムファイルと呼んでいて、何か設定を書き換えた時に問題が起こったのか?

    色々謎が多い。

    ここに返信
    • by Anonymous Coward on 2019年06月12日 19時33分 (#3632339)

      > 普通は稼働中にシステムファイルは書き換えない。

      データベースって知ってますか?

      • by Anonymous Coward

        データベースには全く詳しくないんですが(皮肉とか謙遜とかでなくMySQLをちょっぴりいじったくらい)、データベースってシステムファイルを稼働中に書き換えるのが普通なんですか?
        "システムファイル"が何を指すのかによるとは思うんですが。

        もう一度言っておきますが、本当に皮肉とか謙遜とかでないです。

        • by Anonymous Coward

          ウィンドウズだって起動中にレジストリを書き換えるじゃん。

        • by Anonymous Coward

          mysqlだってmysql(システム)データベースは更新されるだろ。
          システムファイルってそれ含むってのが共通認識な。
          システムのバックアップ・リストアと言われた場合の対象となってるわけ。
          たぶん、お前がシステムファイルと思ってるのはmy.cnfとか設定ファイルだろ。
          システムファイルってそれだけじゃない。
          当然稼働中に書き換わってゆくわ。

          • by Anonymous Coward

            であればデータベースの破損となるのが共通認識ですよ。
            システム「ファイル」なんて表現する必要がない。

            今回の問題の部分がそもそもデータベースであるかも怪しいけど。

        • by Anonymous Coward

          Oracle用語的には「システムファイル」なんていう書き方はしないので、
          これは元記事がわかりにくいけど、元記事はOracleだと断定しているので
          Oracle DBを構成するファイルなんだろうなということはわかる。

          「両系統で同じシステムファイルが破損していた」とあるので
          ノードごとに異なる実体を保持しているファイルで常時更新対象のファイルだとすると
          オンラインREDOログ、UNDO表領域が候補。
          このうち通常のリストア対象なのはUNDO表領域だけ。
          ただ、オンラインREDOログごとリストアしてバックアップ時点に完全に戻すこともできないことは無い。

          もしデータ以外(常時更新対象外)の実行ファイルやライブラリファイルが破損しているとすると
          OSが原因または運用で壊している可能性はある。

    • by Anonymous Coward

      システムファイル自体はむしろ構築後だと稼働中に書き換えるでしょ。
      それで書き換えたファイルのシステムへの読み込みはサービス再起動時に行うのが一般的なんじゃないの?

  • 壊して儲かるなら、壊さない理由が無いも同然でしょ。
    ここに返信
typodupeerror

アレゲは一日にしてならず -- アレゲ見習い

読み込み中...