アカウント名:
パスワード:
DCでの事故原因として電源がよく上げられるけど、改善されない要因ってなんだろう。
・電源なんてあって当たり前なので管理がいい加減のまま。・不安なので多重化しててもやっぱりどっかで事故っててきりがない。・実は他に原因があるけど言い訳(スケープゴート)にされやすい。・掃除のオバちゃんが黒幕。
コンピュータの電源に使われてるスイッチング電源は、大抵、整流した商用電源をFETのスイッチで制御して定電圧を供給していますが、途中途中に大容量の電解コンデンサやコイル・トランスを挟んで求められる安定度と直流の「きれいさ」(ノイズ輻射や電圧変動の小ささ)を確保している訳です。
これらの部品は経年劣化するし、温度や負荷が高ければ劣化速度は加速します。特に、電解コンデンサには電子部品としては比較的短い寿命がありまして、平均故障間隔 [wikipedia.org]が、少し前だと1,000〜2,000時間@105℃、長くても5,000時間で、最近になっていろいろ改善されたり材質が固体化されたりして、10,000時間@105℃の物が出始めた。電源内部が50℃位で動作してると仮定した場合、電解コンデンサの温度依存性の法則 [nteku.com]から、中のコンデンサが2,000時間@105℃の場合、大体90,000時間=10年ちょっとの平均故障間隔となりますが、データセンターのサーバとなると熱的にかなりタイトなので、60℃程度で動作してる部位やリップル電流でもう少し高い温度になってるコンデンサもあるでしょうから、平均して大体5年弱で電源装置が壊れると見たほうがいいでしょう。
今は、電源に自己診断装置やロギング機能が入っていて、不良を起こしそうな兆候が見られるとアラートを上げるものも出てきてるようですが、自社データセンターで、大半のユーザが無料と言うサービスが、そこまで頻繁に機材を入れ替えてるだろうか。と言う問題があるわけです。
そんな感じである上に、スイッチング電源の設計が拙かったとか部品が想定外の壊れ方をしたということがあると、電源が短絡モードで故障したり商用電源側に大きな負荷変動を起こすことがある訳ですよ。そうなると、ラック内の他のサーバや他の電源ノードにまで影響が波及していく。これが、今回の問題の構図なんじゃないかと思いますよ。
とあるメーカーのWSは、内部管理ツールで電源ユニット毎のファン稼働時間を積算していて一定時間毎に交換アラームあげてきますね。保守入ってたら定期的にCEさんがそれのlog見て交換していってる。同時に稼働しているはずなのに、並列の電源ユニットの交換タイミングがバラバラなのが不思議だけどわざとそうしてんのかな。
わざとじゃないですかねえ。同時に同じロットのものを大量に交換した結果同じタイミングで大量に故障して焼け野原ってのを防ぎたいのじゃないかと。この辺実際運用に携わっている人の話を聞いてみたいです。
商用電源側の大きな負荷変動が祟ったかもしれないという推測はありえるかもです。障害検知をするための負荷変動のトリガーの感度設定ミスとかは過去にどこかでありましたね。鈍感で検知できない場合や、敏感すぎて切り替えた直後に異常と誤認識して落ちるとか。
ところで、大抵のところでは電源装置が故障することは当然の前提で電源系統の冗長性を確保しています。それでも落ちたのはどうしてだということですね。例えば、実システムでの切り替えテストが不十分だったとか、運用していく過程でのシステムの増改築変更により当初の設計想定外となったとか、最初からある程度のリスクは覚悟していたとかなんだとか。
githubの原因はなんだったのか気になります。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
最初のバージョンは常に打ち捨てられる。
弱点 (スコア:1)
DCでの事故原因として電源がよく上げられるけど、改善されない要因ってなんだろう。
・電源なんてあって当たり前なので管理がいい加減のまま。
・不安なので多重化しててもやっぱりどっかで事故っててきりがない。
・実は他に原因があるけど言い訳(スケープゴート)にされやすい。
・掃除のオバちゃんが黒幕。
Re:弱点 (スコア:1)
コンピュータの電源に使われてるスイッチング電源は、大抵、整流した商用電源をFETのスイッチで制御して定電圧を供給していますが、途中途中に大容量の電解コンデンサやコイル・トランスを挟んで求められる安定度と直流の「きれいさ」(ノイズ輻射や電圧変動の小ささ)を確保している訳です。
これらの部品は経年劣化するし、温度や負荷が高ければ劣化速度は加速します。
特に、電解コンデンサには電子部品としては比較的短い寿命がありまして、平均故障間隔 [wikipedia.org]が、少し前だと1,000〜2,000時間@105℃、長くても5,000時間で、最近になっていろいろ改善されたり材質が固体化されたりして、10,000時間@105℃の物が出始めた。
電源内部が50℃位で動作してると仮定した場合、電解コンデンサの温度依存性の法則 [nteku.com]から、中のコンデンサが2,000時間@105℃の場合、大体90,000時間=10年ちょっとの平均故障間隔となりますが、データセンターのサーバとなると熱的にかなりタイトなので、60℃程度で動作してる部位やリップル電流でもう少し高い温度になってるコンデンサもあるでしょうから、平均して大体5年弱で電源装置が壊れると見たほうがいいでしょう。
今は、電源に自己診断装置やロギング機能が入っていて、不良を起こしそうな兆候が見られるとアラートを上げるものも出てきてるようですが、自社データセンターで、大半のユーザが無料と言うサービスが、そこまで頻繁に機材を入れ替えてるだろうか。と言う問題があるわけです。
そんな感じである上に、スイッチング電源の設計が拙かったとか部品が想定外の壊れ方をしたということがあると、電源が短絡モードで故障したり商用電源側に大きな負荷変動を起こすことがある訳ですよ。そうなると、ラック内の他のサーバや他の電源ノードにまで影響が波及していく。これが、今回の問題の構図なんじゃないかと思いますよ。
Re:弱点 (スコア:1)
とあるメーカーのWSは、内部管理ツールで電源ユニット毎のファン稼働時間を積算していて一定時間毎に交換アラームあげてきますね。
保守入ってたら定期的にCEさんがそれのlog見て交換していってる。
同時に稼働しているはずなのに、並列の電源ユニットの交換タイミングがバラバラなのが不思議だけどわざとそうしてんのかな。
Re: (スコア:0)
わざとじゃないですかねえ。同時に同じロットのものを大量に交換した結果
同じタイミングで大量に故障して焼け野原ってのを防ぎたいのじゃないかと。
この辺実際運用に携わっている人の話を聞いてみたいです。
Re: (スコア:0)
商用電源側の大きな負荷変動が祟ったかもしれないという推測はありえるかもです。
障害検知をするための負荷変動のトリガーの感度設定ミスとかは過去にどこかでありましたね。
鈍感で検知できない場合や、敏感すぎて切り替えた直後に異常と誤認識して落ちるとか。
ところで、大抵のところでは電源装置が故障することは当然の前提で電源系統の冗長性を確保しています。
それでも落ちたのはどうしてだということですね。
例えば、実システムでの切り替えテストが不十分だったとか、
運用していく過程でのシステムの増改築変更により当初の設計想定外となったとか、
最初からある程度のリスクは覚悟していたとかなんだとか。
githubの原因はなんだったのか気になります。