アカウント名:
パスワード:
近年障害の起きているファイルシステムのほとんどが分散並列フォールトトレラントファイルシステム [wikipedia.org]なのですが、何か関係あるのでしょうかね?
SourceForge.netの障害→Ceph [opensource.srad.jp]Googleの雷の件→GoogleFS [it.srad.jp]今回→Lustre
仕組み的な問題があるのでしょうか? それとも、ベストプラクティスが足りないだけ?
同じようなアーキテクチャのストレージで一回データロストに遭遇したけど、その時は異常(死にかけ)なノードを検知してクラスタから切り離すのに失敗、て感じだった。今回の原因は#2871069の人が書いてるようなやつだと該当ノードは正常なフリして動き続けるんで切り離す対象とみなされなかったんでしょう。正常に切り離せれば当然書き込みの対象にもならんし元からそこにあったデータもレプリカから再度複製されるんだけどね。
発生頻度としてはノードになるサーバを買い足せば簡単に容量を増やせる仕組みなだけに台数が増えるぶん単体障害が発生しやすいてとこじゃないかな。スケールアウトしやすいんでDCでの採用例が増えてるから目立つだけかもしれん。
今回はLustreではなくgfarmの問題じゃないの?
#2871440 を見ると、分散ファイルシステムとして使ってたのはgfarmですね。#2871069 を見る限り、gfarmの問題というよりはfirmwareの問題っぽいっけど。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー
分散並列フォールトトレラントファイルシステム (スコア:1)
近年障害の起きているファイルシステムのほとんどが分散並列フォールトトレラントファイルシステム [wikipedia.org]なのですが、何か関係あるのでしょうかね?
SourceForge.netの障害→Ceph [opensource.srad.jp]
Googleの雷の件→GoogleFS [it.srad.jp]
今回→Lustre
仕組み的な問題があるのでしょうか? それとも、ベストプラクティスが足りないだけ?
Re:分散並列フォールトトレラントファイルシステム (スコア:1)
同じようなアーキテクチャのストレージで一回データロストに遭遇したけど、
その時は異常(死にかけ)なノードを検知してクラスタから切り離すのに失敗、て感じだった。
今回の原因は#2871069の人が書いてるようなやつだと該当ノードは正常なフリして動き続けるんで
切り離す対象とみなされなかったんでしょう。
正常に切り離せれば当然書き込みの対象にもならんし元からそこにあったデータも
レプリカから再度複製されるんだけどね。
発生頻度としてはノードになるサーバを買い足せば簡単に容量を増やせる仕組みなだけに
台数が増えるぶん単体障害が発生しやすいてとこじゃないかな。
スケールアウトしやすいんでDCでの採用例が増えてるから目立つだけかもしれん。
Re: (スコア:0)
今回はLustreではなくgfarmの問題じゃないの?
Re: (スコア:0)
#2871440 を見ると、分散ファイルシステムとして使ってたのはgfarmですね。
#2871069 を見る限り、gfarmの問題というよりはfirmwareの問題っぽいっけど。