アカウント名:
パスワード:
システムを納入したメーカーが書かれていないのでなんとも言えないが...某社の保守作業者がMirrorの二重障害を「起こした」例を知っている
再現手順:1.自然故障でHDD障害発生(たまにあるよね)2.正常な方のHDDを交換(???)3.急激にエラーレートが上がる(そりゃそうだ)4.二重障害でしたと報告(嘘つき)
その後、日中のHDD交換とrebuildが禁止になったとさ# ACでなきゃ書けないんだよ!
Disk二台逝くのってわりとあるから基幹業務にミラーは怖いね。
予算が無いからといって、ひたすら大量の中古格安サーバーをストライプだけで構成して、壊れたら諦めるという運用してた部署もあった。保守も入れず、壊れたサーバーが溜まったら使える部品で組み直して再生。部長さんが京都の始末屋さんでした。
同時故障って計算上の確率は低いですが実際の構築と運用次第では頻繁に起こりますからね。例えば同じ型番の同じロットのHDDを使い、同じように読み書きが発生するような(単純なミラーとか)場合大体同時期に壊れます
さらに故障によるrebuild時には通常よりもアクセスが集中するので, rebuild中に残っていたディスクも逝くってのは, ある程度常識的なものですよね.
ですから, あらかじめ余分なディスクを用意しておいて, 数カ月感覚で交換してディスクごとの稼働時間を明確にずらすなんてのも運用上の定石ですよね.
あと、rebuild中は生き残ったディスクの全領域を読みながら交換したディスクに書き込むので、普段めったにアクセスしない領域もアクセスすることになり、知らなきゃよかったようなエラーも見つかって(見つけて)しまう、ということも。
それは計算の仮定(HDDの故障は独立事象)がおかしいだけで計算自体に罪はないだろ
別に3台でミラーリングしてもいいし10台でミラーリングしたっていい。
1台故障して交換中のリビルド負荷により弱っていたもう1台が故障、っていうか全部に読み出しがかかるので、以前に読めなくなっていた箇所があったことが発覚、じゃないの?別に同時故障は怪しいわけじゃないと思うけど。
NICOSの同時故障は、rebuild負荷による障害かもね
N港の荒神2で、上記の再現手順をやった保守会社があるSEには保守会社の嘘を見抜く能力はあったけど、お客さんに「騙されてるよ」と言える発言力はなかった# 力ではなく倫理の問題だ
星乃事務所といえば、関係者にはわかるだろうか?10年以上前のlogも残っていない話で告発するのは無理なので、ACで失礼
リビルド中に以前の故障が発覚したって、それ同時故障じゃなく運用が見逃してただけ。
定期的に全面舐めてなかった時点で運用がヘボ。
てか、それなりのRAIDコントローラなら、自動で定期的にパトロールリードを実行するよね。運用もヘボなんだろうけど、ヘボなRAIDコントローラを入れた設計もヘボ。
HDD診断機能もバグってたのではないかな?あそこのあれだろうなと言うハードに心当たりはある。
企業向けストレージだと、普段からバックグラウンドで読み出し確認を行って、データを読み出しできなさそうな挙動が増えてきたディスクは予防的に障害扱いにしてボリューム構成要因から除去、オペレータに交換を促す機能が付いているものがありますが、今回の機材はそうではなかったと言うことですな
企業向けじゃなくたって、linuxのメインラインに載ってるソフトウェアRAIDだってその手の機能はある。
と言うかそれ無かったらRAIDコントローラとしては欠陥だよ。
同じロットで組み立てたモノって、性質がかなり似るってことではないの。一卵性双子みたいなもの。安全対策で同じロットのものを使うことは禁止。これエンジニアの常識だと思っていたが・・・。逆に特性を合わせるために、同じロットである事を要求される。これもまた常識。
新品は同じ時期にハードを構築してるから故障時期が重なってもおかしくはないむしろ自然とも言える
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
にわかな奴ほど語りたがる -- あるハッカー
同時故障は怪しい (スコア:5, 興味深い)
システムを納入したメーカーが書かれていないのでなんとも言えないが...
某社の保守作業者がMirrorの二重障害を「起こした」例を知っている
再現手順:
1.自然故障でHDD障害発生(たまにあるよね)
2.正常な方のHDDを交換(???)
3.急激にエラーレートが上がる(そりゃそうだ)
4.二重障害でしたと報告(嘘つき)
その後、日中のHDD交換とrebuildが禁止になったとさ
# ACでなきゃ書けないんだよ!
Re:同時故障は怪しい (スコア:2)
Disk二台逝くのってわりとあるから基幹業務にミラーは怖いね。
予算が無いからといって、ひたすら大量の中古格安サーバーをストライプだけで構成して、壊れたら諦めるという運用してた部署もあった。
保守も入れず、壊れたサーバーが溜まったら使える部品で組み直して再生。
部長さんが京都の始末屋さんでした。
Re:同時故障は怪しい (スコア:1)
同時故障って計算上の確率は低いですが実際の構築と運用次第では頻繁に起こりますからね。
例えば同じ型番の同じロットのHDDを使い、同じように読み書きが発生するような(単純なミラーとか)場合大体同時期に壊れます
Re:同時故障は怪しい (スコア:2)
さらに故障によるrebuild時には通常よりもアクセスが集中するので, rebuild中に残っていたディスクも逝くってのは, ある程度常識的なものですよね.
ですから, あらかじめ余分なディスクを用意しておいて, 数カ月感覚で交換してディスクごとの稼働時間を明確にずらすなんてのも運用上の定石ですよね.
Re: (スコア:0)
あと、rebuild中は生き残ったディスクの全領域を読みながら交換したディスクに書き込むので、
普段めったにアクセスしない領域もアクセスすることになり、知らなきゃよかったようなエラーも
見つかって(見つけて)しまう、ということも。
Re: (スコア:0)
それは計算の仮定(HDDの故障は独立事象)がおかしいだけで計算自体に罪はないだろ
Re: (スコア:0)
別に3台でミラーリングしてもいいし10台でミラーリングしたっていい。
Re:同時故障は怪しい (スコア:1)
1台故障して交換中のリビルド負荷により弱っていたもう1台が故障、っていうか全部に読み出しがかかるので、以前に読めなくなっていた箇所があったことが発覚、じゃないの?別に同時故障は怪しいわけじゃないと思うけど。
Re:同時故障は怪しい (スコア:3)
NICOSの同時故障は、rebuild負荷による障害かもね
N港の荒神2で、上記の再現手順をやった保守会社がある
SEには保守会社の嘘を見抜く能力はあったけど、お客さんに「騙されてるよ」と言える発言力はなかった
# 力ではなく倫理の問題だ
星乃事務所といえば、関係者にはわかるだろうか?
10年以上前のlogも残っていない話で告発するのは無理なので、ACで失礼
Re:同時故障は怪しい (スコア:1)
Re:同時故障は怪しい (スコア:1)
リビルド中に以前の故障が発覚したって、
それ同時故障じゃなく運用が見逃してただけ。
定期的に全面舐めてなかった時点で運用がヘボ。
Re:同時故障は怪しい (スコア:1)
てか、それなりのRAIDコントローラなら、自動で定期的にパトロールリードを実行するよね。
運用もヘボなんだろうけど、ヘボなRAIDコントローラを入れた設計もヘボ。
Re: (スコア:0)
HDD診断機能もバグってたのではないかな?
あそこのあれだろうなと言うハードに心当たりはある。
Re: (スコア:0)
企業向けストレージだと、普段からバックグラウンドで読み出し確認を行って、
データを読み出しできなさそうな挙動が増えてきたディスクは予防的に障害扱いにして
ボリューム構成要因から除去、オペレータに交換を促す機能が付いているものがありますが、
今回の機材はそうではなかったと言うことですな
Re: (スコア:0)
企業向けじゃなくたって、
linuxのメインラインに載ってるソフトウェアRAIDだってその手の機能はある。
と言うかそれ無かったらRAIDコントローラとしては欠陥だよ。
Re: (スコア:0)
同じロットで組み立てたモノって、性質がかなり似るってことではないの。一卵性双子みたいなもの。
安全対策で同じロットのものを使うことは禁止。これエンジニアの常識だと思っていたが・・・。
逆に特性を合わせるために、同じロットである事を要求される。これもまた常識。
Re: (スコア:0)
新品は同じ時期にハードを構築してるから故障時期が重なってもおかしくはない
むしろ自然とも言える