2月5日8時56分ごろ、気象庁のスーパーコンピュータで障害が発生した(気象庁の発表)。これによって気象事業者や航空関係機関向けの数値予報資料の配信に影響が出たとのこと。障害は12時27分ごろに復旧した(続報)。冷却装置の停止が原因だという(ITmedia)。このスーパーコンピュータは2018年6月に運用が開始されたもの。日経xTECHによると、このシステムは米Cray製で日立製作所が納入していたもの。気象庁では2013年にも冷却装置の故障によるシステム障害が発生していた(過去記事)。
スーパーコンピュータの起動シーケンスを見てみたい。 (スコア:1)
スイッチオン一つで数十分で起動できるものなのか、マニュアル見ながらブートローダーをチェインして、起動モードを段々上げてゆくのか。
Re:スーパーコンピュータの起動シーケンスを見てみたい。 (スコア:4, 興味深い)
スパコンじゃないけど、メインフレームの起動シークエンスはちょくちょくボケーっと見てた事がある。20年くらい前の話。
コンソール見てると決まられた手順に従って機器の電源が入っていくのがわかって面白い。
当時は電源スイッチ入れて、電源投入が完了するまで待って、OSのブートコマンドを投入してたと思う。
Re: (スコア:0)
当番は少し早出していた
Re: (スコア:0)
あれは、電源ONで9600bpsでテープ装置からマイクロコードを DRAMにロードした後に
VAX CPUが起動していたんだ。
Re: (スコア:0)
エネルギー充填120%してから対ショック対閃光防御で引き金を引くと発射されるような、
そういうのはないんだろうなあ。
せいぜいファンがブンブン唸って、ランプがチカチカ点滅してるうちに、
いつのまにか機動が終わってるくらいかな?
Re: (スコア:0)
別途冷却システムを先に立ち上げと、事業所全体での電力使用量を確認するくらいはありそうですが、
>いつのまにか機動が終わってるくらいかな?
床が割れてせり上がってくる感じでしょうか?
それとも壁から色々生えてくるタイプ?
変形合体は故障が多そうですけど、機動を名乗るなら避けられないのでしょうか。
Re: (スコア:0)
Clay は Clay Linux Environment というOSだそうだから、個々のノードのブートは普通のLinuxと大きくは違わないんじゃないかな。コントロールを行なっているノードの画面上では、電源が入った、起動中、稼働中、故障を表すアイコンが画面に並んでるくらいで。
XC50を起動する理事長 [rtri.or.jp]を見ても、特別な何かがあるとは見えないような。
あるあるだな。 (スコア:0)
サーバー室のクーラーを、掃除のおばちゃんが止めてしまったんだろう。
Re:あるあるだな。 (スコア:2, 興味深い)
日経xTECHのリンク先を見ると
だいたいあってる
Re: (スコア:0)
Cray XC50 [cray.com]の仕様によると、冷却は水冷と空冷の併用みたいです。両方とも異常になったらシステムが止まるのは当然として、どちらか片方だけ冷却が停止した状態だと、どういう動作になるんでしょうね?
何れにせよ今回は、熱交換器が止まったか、循環ポンプが止まったか、冷却ファンが止まったか、あるいはそれら全てが丸ごと落ちたか……冷却系をバックアップする(できる)UPSなんか無いもんなぁ。
冗長構成は? (スコア:0)
東西2か所にデータセンターを置いて、
サーバ以外はなるべく別ベンダーになるようなシステムで
ソフトウェアアップデートを充てるときも、たとえば東は最新バージョンで
西は1つ前のバージョンにするとかそんな構成で
Re: (スコア:0)
その予算ください。
Re: (スコア:0)
スパコンは性能が最重要であり、サーバほどの可用性は求められない(計算処理はバッチ扱い)ので、
冗長構成だと常に片方のノードが無駄になりますよ。
こういう障害への対応なら、同レベルのスパコンを使ってるところを相手に、
非常時に相互に使わせてもらう契約をするとかしたほうが適切です。
冬将軍 (スコア:0)
気象庁が困ってるようだから、冷却を手伝ってやるぜ!
Re: (スコア:0)
北海道に持っていく?
暖冬傾向を覆す歴史的寒波が襲来 [yahoo.co.jp]
Re: (スコア:0)
北海道は電源大丈夫?
あと回線も。
Re: (スコア:0)
民間のさくらでさえ石狩データセンター持ってるしこないだの停電でもほとんどダウンタイムなかっただろ
Re: (スコア:0)
東京だって十分冷却されますよ
Re: (スコア:0)
むしろわざわざ冷やすくらいならその熱を周囲の暖房に使えないかな
省エネ省エネ