アカウント名:
パスワード:
昔の話ですが、R2000のFPUのアルミ配線が劣化して、浮動小数点演算だけ間違うという事例はありました。 整数計算部分は正常なので、各種daemon類は問題なく動き、エラーログはまったく残らない。
クラスタ系HPCは構成ノード数がハンパ無く多いので、一台のMTBFがそれなりに高くてもそれをトータルすれば決して安定して動作するとはいえません。東工大のTSUBAMEはCPUコア10000個以上、メモリ18TB、ディスク1PBの化けものだし、BlueGene/LにいたってはCPUコア13万以上ですから推して知るべき。
当然ハードが一部故障することを前提として運用しなければならないわけで、ソフト側でフォローする仕組みが重要になってきます。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson
計算能力より耐久性 (スコア:0)
それとも世間のスーパーコンピュータも耐久性は家電程度なのかな。
BlueGene/Lの連続稼働時間は大体10日 (スコア:2, 興味深い)
Re:計算能力より耐久性 (スコア:1)
Re:計算能力より耐久性 (スコア:3, 興味深い)
壊れたノードをどうやって特定するのか、どうやって交換するのかがとても難しいのです。
スパコン用に専用設計されたハードウェアの場合、壊れたことを検出する方法を設計時から考慮します。だから壊れたノードは割りと間単に特定できます・・・・が、スパコン用のハードは多くの場合受注生産なうえに、工事も難しいので簡単には交換できないのです。
PS3のような既製品を用いれば、簡単に交換できるでしょう。ですが壊れたノードを特定するための仕組みを持っていないので、故障時にそれを特定するのがとても困難なのです。いくらユニットが安くても、壊れていることを検出できなければシステム丸ごと破棄したほうが安くなってしまうこともあります。
そうそう都合よくはいかないのです。
Re:計算能力より耐久性 (スコア:2, すばらしい洞察)
Re:計算能力より耐久性 (スコア:0)
専用HWの補助無しは大変でしょうね。
Re:計算能力より耐久性 (スコア:1, すばらしい洞察)
ある時点からの計算結果がすべてゴミだったりしたら、それはもう...
Re:計算能力より耐久性 (スコア:4, 興味深い)
昔の話ですが、R2000のFPUのアルミ配線が劣化して、浮動小数点演算だけ間違うという事例はありました。 整数計算部分は正常なので、各種daemon類は問題なく動き、エラーログはまったく残らない。
Re:計算能力より耐久性 (スコア:1)
両方おかしい可能性はゼロじゃありませんけど、確率的にはかなり低いでしょう。
署名スパムがウザい?アカウント作って非表示に設定すればスッキリさ。
Re:計算能力より耐久性 (スコア:0)
でも、PS3 だったら片っ端から新品に交換しちゃうっていう割り切りも出来たりするのでは(笑
計算時間のロスが気になるけど、それ込みで考えてもそれで OK という場面もあるかもしれないし。
Re:計算能力より耐久性 (スコア:0)
使う時に毎回起動すれば、起動時に不具合のあるマシンの特定もできるし入れ替えも簡単。
運用の手順自体を変えないと駄目ということだろう。従来の運用手順のままじゃいかんぞと。
Re:計算能力より耐久性 (スコア:1, 興味深い)
1日に1回くらい見回って、壊れてるノードがあったら交換。
もしくはもうちょっと台数を増やして、多数決をアルゴリズムに組み込むとか。
それこそ、cronで適当なスクリプト書けば済むような話だと思いますよ。
Re:計算能力より耐久性 (スコア:1)
スペースが貴重な日本だと難しいかも知れないけど、アメリカなんかの
広いセンターだと、故障したノードの交換は考慮しないでそのままネットワークから
切り離して、あとは電源を切るだけというのでもいけるかも知れない?
一応 (スコア:1, 参考になる)
あと既にLinux@PS3用の診断ツールの類も出回っています。
Re:計算能力より耐久性 (スコア:0)
Re:計算能力より耐久性 (スコア:0)
#調子が悪けりゃゲーム大会
Re:計算能力より耐久性 (スコア:0)
内部仕様が変わっていて互換性の問題が発生し、
コードの書き換え or 全取っ替えで
費用はトントンになりそうな予感。
Re:計算能力より耐久性 (スコア:1, すばらしい洞察)
少数生産のスパコンのノード程度と、
N千万台の家電の信頼性が前者が上なら、
商売にならんですよ。
家電は保証期間内の不良率ppmで見ますから。
Re:計算能力より耐久性 (スコア:0)
スパコンなんて頻繁にオンオフしないでしょ。するの?
Re:計算能力より耐久性 (スコア:0)
Re:計算能力より耐久性 (スコア:1, 興味深い)
その通り。家電屋の、特に白物系製品のエージングは並みじゃない。
タフブックの試験のために、そっち関係の人を呼んできたってのは有名な話だ。
…けど、SONYじゃなぁ。
Re:計算能力より耐久性 (スコア:0)
Re:計算能力より耐久性 (スコア:0)
このトピで指しているのは、ソニー製品なわけで。
ああ、そういう意味で「なめてはいかんです」か。
Re:計算能力より耐久性 (スコア:1)
どこぞの洋モノゲーム機と違ってそこまでは持つんだから。
台数が増えればMTBFはどんどん低下します (スコア:1, 興味深い)
クラスタ系HPCは構成ノード数がハンパ無く多いので、一台のMTBFがそれなりに高くてもそれをトータルすれば決して安定して動作するとはいえません。東工大のTSUBAMEはCPUコア10000個以上、メモリ18TB、ディスク1PBの化けものだし、BlueGene/LにいたってはCPUコア13万以上ですから推して知るべき。
当然ハードが一部故障することを前提として運用しなければならないわけで、ソフト側でフォローする仕組みが重要になってきます。
Re:計算能力より耐久性 (スコア:0)
Re:計算能力より耐久性 (スコア:0)
# バグも無限大だが。