パスワードを忘れた? アカウント作成
13833049 story
スパコン

気象庁のスパコン、冷却装置の不具合で3時間半にわたって障害発生 19

ストーリー by hylom
まだ劣化には早い 部門より

2月5日8時56分ごろ、気象庁のスーパーコンピュータで障害が発生した(気象庁の発表)。これによって気象事業者や航空関係機関向けの数値予報資料の配信に影響が出たとのこと。障害は12時27分ごろに復旧した(続報)。冷却装置の停止が原因だという(ITmedia)。

このスーパーコンピュータは2018年6月に運用が開始されたもの日経xTECHによると、このシステムは米Cray製で日立製作所が納入していたもの。

気象庁では2013年にも冷却装置の故障によるシステム障害が発生していた(過去記事)。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • スイッチオン一つで数十分で起動できるものなのか、マニュアル見ながらブートローダーをチェインして、起動モードを段々上げてゆくのか。

    • by Anonymous Coward on 2019年02月07日 18時44分 (#3561404)

      スパコンじゃないけど、メインフレームの起動シークエンスはちょくちょくボケーっと見てた事がある。20年くらい前の話。
      コンソール見てると決まられた手順に従って機器の電源が入っていくのがわかって面白い。
      当時は電源スイッチ入れて、電源投入が完了するまで待って、OSのブートコマンドを投入してたと思う。

      親コメント
    • by Anonymous Coward
      ミニコンのVAX-730は起動に20分くらいかかっていた
      当番は少し早出していた
      • by Anonymous Coward

        あれは、電源ONで9600bpsでテープ装置からマイクロコードを DRAMにロードした後に
        VAX CPUが起動していたんだ。

    • by Anonymous Coward

      エネルギー充填120%してから対ショック対閃光防御で引き金を引くと発射されるような、
      そういうのはないんだろうなあ。

      せいぜいファンがブンブン唸って、ランプがチカチカ点滅してるうちに、
      いつのまにか機動が終わってるくらいかな?

      • by Anonymous Coward

        別途冷却システムを先に立ち上げと、事業所全体での電力使用量を確認するくらいはありそうですが、

        >いつのまにか機動が終わってるくらいかな?
        床が割れてせり上がってくる感じでしょうか?
        それとも壁から色々生えてくるタイプ?
        変形合体は故障が多そうですけど、機動を名乗るなら避けられないのでしょうか。

    • by Anonymous Coward

      Clay は Clay Linux Environment というOSだそうだから、個々のノードのブートは普通のLinuxと大きくは違わないんじゃないかな。コントロールを行なっているノードの画面上では、電源が入った、起動中、稼働中、故障を表すアイコンが画面に並んでるくらいで。

      XC50を起動する理事長 [rtri.or.jp]を見ても、特別な何かがあるとは見えないような。

  • by Anonymous Coward on 2019年02月07日 16時41分 (#3561309)

    サーバー室のクーラーを、掃除のおばちゃんが止めてしまったんだろう。

    • by Anonymous Coward on 2019年02月07日 17時08分 (#3561329)

      日経xTECHのリンク先を見ると

      停止の原因は特定できていないが、気象庁によると「スパコンが停止した時間帯に電源関連の作業をしていた」といい、これが何らかの形で影響している可能性があるとしている。

      だいたいあってる

      親コメント
    • by Anonymous Coward

      Cray XC50 [cray.com]の仕様によると、冷却は水冷と空冷の併用みたいです。両方とも異常になったらシステムが止まるのは当然として、どちらか片方だけ冷却が停止した状態だと、どういう動作になるんでしょうね?

      何れにせよ今回は、熱交換器が止まったか、循環ポンプが止まったか、冷却ファンが止まったか、あるいはそれら全てが丸ごと落ちたか……冷却系をバックアップする(できる)UPSなんか無いもんなぁ。

  • by Anonymous Coward on 2019年02月07日 18時21分 (#3561385)

    東西2か所にデータセンターを置いて、
    サーバ以外はなるべく別ベンダーになるようなシステムで

    ソフトウェアアップデートを充てるときも、たとえば東は最新バージョンで
    西は1つ前のバージョンにするとかそんな構成で

    • by Anonymous Coward

      その予算ください。

    • by Anonymous Coward

      スパコンは性能が最重要であり、サーバほどの可用性は求められない(計算処理はバッチ扱い)ので、
      冗長構成だと常に片方のノードが無駄になりますよ。

      こういう障害への対応なら、同レベルのスパコンを使ってるところを相手に、
      非常時に相互に使わせてもらう契約をするとかしたほうが適切です。

  • by Anonymous Coward on 2019年02月07日 21時00分 (#3561482)

    気象庁が困ってるようだから、冷却を手伝ってやるぜ!

    • by Anonymous Coward

      北海道に持っていく?
      暖冬傾向を覆す歴史的寒波が襲来 [yahoo.co.jp]

      • by Anonymous Coward

        北海道は電源大丈夫?
        あと回線も。

        • by Anonymous Coward

          民間のさくらでさえ石狩データセンター持ってるしこないだの停電でもほとんどダウンタイムなかっただろ

      • by Anonymous Coward

        東京だって十分冷却されますよ

        • by Anonymous Coward

          むしろわざわざ冷やすくらいならその熱を周囲の暖房に使えないかな
          省エネ省エネ

typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...