パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

先週発生したGitHubの障害、発端はデータセンターの電源設備トラブル」記事へのコメント

  • DCでの事故原因として電源がよく上げられるけど、改善されない要因ってなんだろう。

    ・電源なんてあって当たり前なので管理がいい加減のまま。
    ・不安なので多重化しててもやっぱりどっかで事故っててきりがない。
    ・実は他に原因があるけど言い訳(スケープゴート)にされやすい。
    ・掃除のオバちゃんが黒幕。

    • by Artane. (1042) on 2016年02月01日 21時50分 (#2957906) ホームページ 日記

      コンピュータの電源に使われてるスイッチング電源は、大抵、整流した商用電源をFETのスイッチで制御して定電圧を供給していますが、途中途中に大容量の電解コンデンサやコイル・トランスを挟んで求められる安定度と直流の「きれいさ」(ノイズ輻射や電圧変動の小ささ)を確保している訳です。

      これらの部品は経年劣化するし、温度や負荷が高ければ劣化速度は加速します。
      特に、電解コンデンサには電子部品としては比較的短い寿命がありまして、平均故障間隔 [wikipedia.org]が、少し前だと1,000〜2,000時間@105℃、長くても5,000時間で、最近になっていろいろ改善されたり材質が固体化されたりして、10,000時間@105℃の物が出始めた。
      電源内部が50℃位で動作してると仮定した場合、電解コンデンサの温度依存性の法則 [nteku.com]から、中のコンデンサが2,000時間@105℃の場合、大体90,000時間=10年ちょっとの平均故障間隔となりますが、データセンターのサーバとなると熱的にかなりタイトなので、60℃程度で動作してる部位やリップル電流でもう少し高い温度になってるコンデンサもあるでしょうから、平均して大体5年弱で電源装置が壊れると見たほうがいいでしょう。

      今は、電源に自己診断装置やロギング機能が入っていて、不良を起こしそうな兆候が見られるとアラートを上げるものも出てきてるようですが、自社データセンターで、大半のユーザが無料と言うサービスが、そこまで頻繁に機材を入れ替えてるだろうか。と言う問題があるわけです。

      そんな感じである上に、スイッチング電源の設計が拙かったとか部品が想定外の壊れ方をしたということがあると、電源が短絡モードで故障したり商用電源側に大きな負荷変動を起こすことがある訳ですよ。そうなると、ラック内の他のサーバや他の電源ノードにまで影響が波及していく。これが、今回の問題の構図なんじゃないかと思いますよ。

      親コメント
      • by nemui4 (20313) on 2016年02月02日 0時42分 (#2957962) 日記

        とあるメーカーのWSは、内部管理ツールで電源ユニット毎のファン稼働時間を積算していて一定時間毎に交換アラームあげてきますね。
        保守入ってたら定期的にCEさんがそれのlog見て交換していってる。
        同時に稼働しているはずなのに、並列の電源ユニットの交換タイミングがバラバラなのが不思議だけどわざとそうしてんのかな。

        親コメント
        • by Anonymous Coward

          わざとじゃないですかねえ。同時に同じロットのものを大量に交換した結果
          同じタイミングで大量に故障して焼け野原ってのを防ぎたいのじゃないかと。
          この辺実際運用に携わっている人の話を聞いてみたいです。

      • by Anonymous Coward

        商用電源側の大きな負荷変動が祟ったかもしれないという推測はありえるかもです。
        障害検知をするための負荷変動のトリガーの感度設定ミスとかは過去にどこかでありましたね。
        鈍感で検知できない場合や、敏感すぎて切り替えた直後に異常と誤認識して落ちるとか。

        ところで、大抵のところでは電源装置が故障することは当然の前提で電源系統の冗長性を確保しています。
        それでも落ちたのはどうしてだということですね。
        例えば、実システムでの切り替えテストが不十分だったとか、
        運用していく過程でのシステムの増改築変更により当初の設計想定外となったとか、
        最初からある程度のリスクは覚悟していたとかなんだとか。

        githubの原因はなんだったのか気になります。

UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie

処理中...