パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

航空管制システム、再びダウン」記事へのコメント

  • by Anonymous Coward
    人が死なず物が壊れず大幅に予定外な被害が出てなければ、システム使う側の立場としてはたまの障害は仕方が無いかなと。そりゃ無いに越した事はありませんが。

    # てのは、ビンボーでろくにお金を掛けられない組織にいるからこその感

    • 某ワークショップで,管制情報システムに関わっている方が,
      「ミッションクリティカルという言葉が一人歩きしているけど,
       管制業務ってのは,基本的に人が行うもので,
       堅牢性は人間が実現している
      • 「ミッションクリティカルという言葉が一人歩きしているけど,
         管制業務ってのは,基本的に人が行うもので,
         堅牢性は人間が実現しているものなんだ.
         本質的に開発者・技術者はほとんどないんだ」

        管制業務に限ったことではなく、的を射た発言だと思います。
        結局、システムのお守りをするのは人であるわけで、システムの異常を
        人が見落としていればいずれは止まってしまいます。

        身近な例がRAID(1,5)かな。
        アレイコントローラがデ

        • >RAIDにしたなら単発の時にも増して監視を強化しなければ
          >ならないのに。

          因縁付けるわけではありませんが、これは何故?
          すみません、どうしてRAIDにしたらなら単発にも増して
          監視を強化しなければならないのかわかりません。
          教えてください。
          • by Anonymous Coward
            単純に、ハードディスクの玉数が増えれば、全体の
            故障する確率はあがるからです。

            HDD 1台のときの故障する確率が 0.1 だとすると、
            RAID1ではHDD 2台になるので、そのうち、どれか
            のHDDが故障する確率は、
              0.1 + 0.1 - (0.1*0.1)。
            (0.1*0.1)の場合は、2台とも故障する確率ですね。

            正式な用語、および、計算方法はMTBFなどで検索し
            て調べてくださいね。情報処理技術者試験の基礎です。

            余談ですが、RAID5なんかはこういう観点から見る
            • by Anonymous Coward on 2004年04月10日 13時47分 (#529566)
              いくらなんでもあまりにひどすぎる。知らない人は鵜呑みにしないように。(/.Jにそんな人は少ないかも知れないが門外漢の方が見ていることもあるだろうからあえて書いておこう。世にいう「ネタにマジレス」になってしまう可能性はあるが。)

              RAID1でデータが失われるのは以下の場合。
                - RAIDコントローラの故障
                - HDDが全て故障した場合

              すなわち、先の例(一定期間内におけるHDDの故障確率0.1でRAIDコントローラ等の故障は無視っていう話)でいけば、システム全体としてデータが失われる確率は
                単発:0.1
                RAID:(0.1 * 0.1) = 0.01 (両方故障した場合のみだから)
              であり、RAIDの方が大幅に小さくなることは明らか。
              特に安物のRAIDコントローラを使っていてそれが壊れやすいというような事情がなければ、RAIDコントローラの故障を考慮にいれてもRAIDの方が安全なのはいうまでもない。

              次、RAID5の話。ここでは3台構成とする。
              読み書きすべきデータの量を100とすると、実際に読み書きするべきデータの総量は
                単発: 100
                RAID: 100 + 50(パリティ) = 150
              で確かに増えてしまうが、HDD1台あたりの読み書き量は
                単発: 100
                RAID: 150 / 3 = 50
              となり、RAIDの方が半分で済む。
              当然パフォーマンスも上がるし、(RAID1のときと似たような話なので省略するが)データが失われる可能性も小さい。これまたRAIDコントローラが粗悪品で、パリティ計算がデータ転送のボトルネックになってしまうようなら話は別だが。

              余談にはなるが、RAID5で構成台数が増えるとパフォーマンスは上がるが信頼性は下がる。理由は各自考察されたし。

              「RAIDならなおさら監視すべし」と言う主張は間違いではないが、それはRAIDの方が故障しやすいためではもちろんなく、以下の理由によるものである。(これは#529391のAC氏の質問への解答にもなり得るだろう。)
                - 単発HDDでは監視していてもいなくても故障したときの結果は同じだが、RAIDでは1台故障した時点で気づけばデータは救われるから。
                - そもそもRAIDを組むような用途は高い信頼性を要求されるため。

              #529455のAC氏がそのコメントにおける主張を真剣に信じているのだとしたら、このあたりの話をもう一度勉強しなおすことをお薦めする。システム全体としてのMTBFの評価等について正確なところを知るにはもう少し数学の知識も必要にはなるが、コンピュータ関係の仕事に就いているのなら無駄になることはないだろう。

              もちろん私は喧嘩を売ろうと思ってこのコメントを書いているわけではない。世の情報処理技術者の知識向上を願ってのことである。正しい知識が正しい選択への第一歩と思うが故である。

              最後にはなるが、もしRAIDにいいことがないのならなぜ世の中の高可用性システムの多くがRAIDを採用しているのか考えるべきだ。「RAIDを採用する奴は周りに流されているだけの馬鹿なのだ」というような理由ではないことは火を見るより明らかだろう。

              --
              # いままさに単発HDDが飛んでしまって別マシンからの書き込み中なのでAC。
              # それこそRAIDにしておくべきだったか…
              # バックアップからの復旧で4時間ぐらい無駄にしそう…
              # (参考までにIDを書いておくとRekishiという者です。パスワード失念、とほほ…)
              親コメント
              • んーと、話の流れが違ってきているような気がする。
                データが失われる率はあなたの計算どおりですが、
                HDのどれかが故障する確立は前のAC氏の言った計算方式で合ってるかと。

                で、重要なのは、RAIDだし大丈夫とか思って、
                放置したまんま動き続けている可能性があるってことなんじゃないかと。
                RAIDなかったらバカでもHDの故障には気付くし。
                いや、RAIDでも普通は気付くとは思うんですが。

                親コメント
              • >次、RAID5の話。ここでは3台構成とする。
                >読み書きすべきデータの量を100とすると、実際に読み書きするべきデータの総量は
                > 単発: 100
                > RAID: 100 + 50(パリティ) = 150
                >で確かに増えてしまうが、HDD1台あたりの読み書き量は
                > 単発: 100
                > RAID: 150 / 3 = 50
                >となり、RAIDの方が半分で済む。

                 ダウト!
                 パリティは、リード・モディファイ・ライトだから、取り敢えず、倍にしないと。
                 ま、キャッシュヒットすれば、リード動作を無くしたり(遅延書込みの場合)、一回で済んだりするけど。
                 あと、三台RAID5を単発に置換する場合、二倍の容量のドライブを使い回していると云う事に要注意

                 本来、三台RAID5と比較すべき対象は、単発2台であるべき。この場合、ドライブあたりの転送量は、50と、RAID5の約半分で済む(パリティ操作のRMW分を補償した場合)。それに、飛んだドライブの用途によっては、データ本体は無事かも知れない。(OS用とデータ格納用にドライブを分けた場合等)
                 また、アプリケーションを工夫して、負荷を2台のドライブに分けると、三台RAID5より遥かにパフォーマンスが上がる。なんせ、ディスク上の全く違う2ヶ所に同時にアクセス可能なのだから。(ついでに、昨今のHDD単体の連続転送速度(サスティン)は、非常に向上してるから、RAID5の転送速度が必須になることはまず無い)

                 あと、前に書いた様に、RAID5は、リード・モディファイ・ライト必須だが、これをHDDで行うには、円盤を1回転余分に回す必要がある。結果、最悪時のアクセス速度は、単体の3倍になる。(現状では、アクセス速度の大部分は回転待ちだから)もし回転同期を取っていないと、さらに悪化する。(IDEのRAID5なんて噴飯物)
                 キャッシュが上手く効けば、この遅延は発生しないが、このキャッシュは、単発HDDには搭載されていない、追加分のパーツであることを忘れてはいけない。単発なら、RAIDコントローラの価格分、メモリ増設等の他の強化が可能になる。

                 と云う訳で、個人的には、HDDが3台あるなら、システム用に1台とデータ用にRAID1で2台使用することを薦める。
                 システム用HDDが飛んで運用不能になる危険はあるが、リカバリは、安定したバックアップを書き戻すだけなので、総合的リスクは少ない筈。システム用HDDをコールドスタンバイで持っていれば、リカバリはさらに速くなる。(コールドスタンバイなら壊れる心配はまず不要だし)
                 ま、ダウンが許されないシステムだと採用出来ないけど、RAID5では、不良ドライブ発生時と交換後のリカバリ作業中は、劇的にパフォーマンスが落ちるので、実質ダウンしたのと変わらない可能性が高い点も要注意。

                >最後にはなるが、もしRAIDにいいことがないのならなぜ世の中の高可用性システムの多くがRAIDを採用しているのか考えるべきだ。

                 現在では、RAIDに匹敵する信頼性と性能を持った単体ドライブが製造不可能なことが理由。
                 元々、RAIDは、高価な高性能・高信頼性ドライブを安価な低品質ドライブで置き換えるべく提唱された訳だが(RAIDの‘I’は、“inexpensive”)、ライバルの高品質ドライブがなくなった今、代替手段は無い。
                 逆に言えば、元々高品質ドライブを要求しないアプリケーションにRAIDを使う必然性など無いということ。例えば、CPUの故障率よりHDDの故障率が低いなら、単発の方が、有効かも知れない。
                 尤も、RAIDなNASでシステム全体の信頼性を上げつつ、メンテナンスコストを削減する等の応用は有効。その様な、システム全体の要求される品質と運用法等を検討せずに、RAIDを採用するなら、「周りに流されているだけの馬鹿」と云われても仕方ないだろう。
                --
                -- Buy It When You Found It --
                親コメント
              • これだけ長文書いておいてネタって事は無いよな・・・とすると本気で大馬鹿か?
                いくらなんでもあまりにひどすぎる。

                >世の情報処理技術者の知識向上を願ってのことである。

                うわー恥ずかしっ!
                こんな馬鹿に技術者の知識向上を願われても困るって!

                元ACでは

                >>故障する確率

                という話をしているのに、

                >RAID1でデータが失われるのは

                と、初っ端から議題を摩り替えている。
                技術・知識は有る割に、日本語が通じない為に結果として周りに迷惑かけまくる人が居ますが、まさにその好例ですな。

                > - 単発HDDでは監視していてもいなくても故障したときの結果は同じ
              • 元ACです。問題を単純化しすぎましたね。

                >いくらなんでもあまりにひどすぎる。

                すみません。わたしが言及したかったのは、

                システムにおける故障の回数

                であって、データの信頼性ではございません
                でした。

                データの信頼性については #529566のAC氏の
                おっしゃるとおり。確率論的に少なくなるのは
                理解できても、実際にRAIDをくんでしまったり、
                複数台で分散したりするほうが「故障回数」は
                増えてしまう、つまり、運用に手間はかかるん
                だよ、
              • この場合、スレッドの流れはミッションクリティカルなシステムの信頼性について議論しているので、HDD単体の故障率ではなく、データの消失の問題を論ずるのはおかしくないと思いますよ。

                #529566の語調に「フレームの素」を感じることは確かですが
              • この場合、スレッドの流れはミッションクリティカルなシステムの信頼性について議論している

                違うよ。RAIDにすると(データを失う確率は減るけれどハードウェア故障の)監視を強化しなきゃいけない、って話がまずあって [srad.jp]、それに対して「どうして?」っていう質問から始まってるんだよ。

                で、冗長化でデータ消失の可能性は減らせるんだけれど部品数が増えてるから#529455 [srad.jp]の言う通りハードウェアの故障の確率が増えるのは当然なのさ。一旦故障が発生したら放置はできないから、監視

              • > そんな頓珍漢な発言だけが「参考になる」でプラスにモデレートされてるあたり、「いかにもダメダメなスラド」って感じだけど、まあそれも毎度のことだからね。
                #529455の「余談」も間違いだらけでかなり痛いので、さすがに「参考になる」にはモデレートしがたいかと。

                ところで質問。ここまでの議論を総合す
              • 緩く、という表現がアレですが、監視対象が少ないから監視の手間も若干少なく済みますね。
                「済む」というより、それしか対象が無いならそれしか監視しようがない、というだけですが。

                とは言えいろんなパターンがあるか。

                ・RAIDの場合は監
              • >と云う訳で、個人的には、HDDが3台あるなら、システム用に1台とデータ用にRAID1で2台使用することを薦める。

                何でこうサラっと「薦める」事ができるかなぁ?
                対象のシステムが「止まらない事」が重要であればシステム用を1台にしてしまうなんてアホでしょ。
                データさえ失わなければパフォーマンス(速度)が良い方がいいというのならあなたの言う

              • >対象のシステムが「止まらない事」が重要であればシステム用を1台にしてしまうなんてアホでしょ。

                見事に
                | ま、ダウンが許されないシステムだと採用出来ないけど
                ここを読み飛ばすか。

                >他にもいっぱい突
              • by Anonymous Coward on 2004年04月12日 15時21分 (#530392)
                元ACです。しまったぁ。超蛇足でした。
                ふらっとめぐってて、あのコメント見たもんだから、
                動転してしまいました。技術的な議論はほかのACさん
                にお任せいたします。

                以下、さらに蛇足。

                冗長構成にしておくと、システムがダウンするような
                大規模なダウンは少ないのでしょうが、日々発生する
                小規模な故障はかえって増える、というのは当たり前
                の話です。で、実際には、そういった小さな、故障の
                たびに、やれ縮退だ、部品の調達だ、再構成だと、
                いろんな人が走り回っています。ディスク関連の障害
                であれば、本来はRAIDだから大丈夫、といえるはずで
                すが、念のため業務の人も巻き込んで確認をします。

                つまり、業務の運用担当としては、データの信頼性が
                上がったがゆえに、故障回数が増えて、仕事が増える、
                という状態に陥るわけです。データの信頼性が上がっ
                たんだったら、仕事が減ってもよさそうな気がするの
                ですが、そうならないあたりがもどかしく、元コメント
                にいたったしだいです。

                それが、ミッションクリティカルを支えている、とい
                うことなのかもしれませんが。
                親コメント
              • >データの信頼性が上がったがゆえに、故障回数が増えて

                ひとつツッコミ。「上がったがゆえ」と言うより「上げるため」。

                でも最後の

                >それが、ミッションクリティカルを支えている、ということなのかもしれませんが。

                このまとめは個人的に超しっくり。
                ためになる現場の声でした。お疲れ様です。

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

処理中...