分散並列フォールトトレラントファイルシステム (#2871252) | スパコンネットのデータ保存拠点で昨年に発生していた大規模障害、今年3月まで気付かず

「スパコンネットのデータ保存拠点で昨年に発生していた大規模障害、今年3月まで気付かず」記事へのコメント

記事ページを表示すべてのコメント取得

検索55コメント Log In/Create an Account

分散並列フォールトトレラントファイルシステム (スコア:1)

by Anonymous Coward on 2015年08月27日 2時26分 (#2871252)

近年障害の起きているファイルシステムのほとんどが分散並列フォールトトレラントファイルシステム [wikipedia.org]なのですが、何か関係あるのでしょうかね?
SourceForge.netの障害→Ceph [opensource.srad.jp]
Googleの雷の件→GoogleFS [it.srad.jp]
今回→Lustre
仕組み的な問題があるのでしょうか? それとも、ベストプラクティスが足りないだけ?
- Re:分散並列フォールトトレラントファイルシステム (スコア:1)
  
  by Anonymous Coward on 2015年08月27日 4時39分 (#2871265)
  
  同じようなアーキテクチャのストレージで一回データロストに遭遇したけど、
  その時は異常(死にかけ)なノードを検知してクラスタから切り離すのに失敗、て感じだった。
  今回の原因は#2871069の人が書いてるようなやつだと該当ノードは正常なフリして動き続けるんで
  切り離す対象とみなされなかったんでしょう。
  正常に切り離せれば当然書き込みの対象にもならんし元からそこにあったデータも
  レプリカから再度複製されるんだけどね。
  発生頻度としてはノードになるサーバを買い足せば簡単に容量を増やせる仕組みなだけに
  台数が増えるぶん単体障害が発生しやすいてとこじゃないかな。
  スケールアウトしやすいんでDCでの採用例が増えてるから目立つだけかもしれん。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  SourceForge.netの障害→Ceph [opensource.srad.jp]
  Googleの雷の件→GoogleFS [it.srad.jp]
  今回→Lustre
  今回はLustreではなくgfarmの問題じゃないの？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    #2871440 を見ると、分散ファイルシステムとして使ってたのはgfarmですね。
    #2871069 を見る限り、gfarmの問題というよりはfirmwareの問題っぽいっけど。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

スパコンネットのデータ保存拠点で昨年に発生していた大規模障害、今年3月まで気付かず More ログイン

「スパコンネットのデータ保存拠点で昨年に発生していた大規模障害、今年3月まで気付かず」記事へのコメント

分散並列フォールトトレラントファイルシステム (スコア:1)

Re:分散並列フォールトトレラントファイルシステム (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

スラド