新幹線不通の原因はHDDトラブル＋システムのプログラムミス

新幹線不通の原因はHDDトラブル＋システムのプログラムミス 55

ストーリー by hylom 2008年10月06日 16時30分
HDDクラッシュを想定していないシステムだった部門より

あるAnonymous Coward 曰く、

先月28日に東北新幹線などのダイヤが乱れるトラブルが発生したが、調査の結果トラブルの原因がポイント制御を行う端末のHDD故障と、バックアップシステムの欠陥だったことが明らかになった（JR東日本の発表資料［PDF］、NIKKEI NETの記事）。

今回のトラブルの元になったのは、東京都北区の東京新幹線車両センター内にある自動進路制御装置。装置内のHDDに故障が発生し、HDD内のデータが読み取れなかったのがトラブルの原因とのことだ。また、故障が発生した場合、通常は自動でバックアップ用のシステムに切り替わるはずだったが、今回発生した「HDDからのデータ読み取り失敗」は「通常すぐに解消する軽微な問題」として対応がプログラムされていなかったそうだ。そのためバックアップシステムへの切り替えが行われず、復旧が手間取る結果となった。

このトラブルでは、東北新幹線のほか上越、長野、山形、秋田の各新幹線に影響が発生し、76本が運休、42本が最大5時間近く遅れ、計6万8500人に影響が出たそうだ（朝日新聞の記事）。この結果を受け、JR東日本はソフトウェアの改修を順次行っていくそうだ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索55コメント Log In/Create an Account

ほんとかなぁ (スコア:5, すばらしい洞察)

by 335 (4199) on 2008年10月06日 16時40分 (#1432718) 日記

HDDからのデータ読み取り失敗を正しく処理できていないシステムって少なくない。

新幹線のポイント制御のようなリアルタイムなプログラムで「HDDからのデータ読み取り失敗」が「通常すぐに解消する軽微な問題」とするのが仕様になっているとは思えない。

考慮されていなかった、というのが正しい説明かと。
- Re:ほんとかなぁ (スコア:4, 参考になる)
  
  by Anonymous Coward on 2008年10月06日 16時48分 (#1432721)
  
  簡易なHAクラスタではサービスの冗長化だけガチガチで、エラーをみてない構成って結構あるんですよ。
  「サービスが正常が動いてるイコール問題はない」という認識だから、機械がぶっ壊れててもサービスさえ反応していればフェイルオーバーしない。
  気づいたときにはもう手遅れってパターンが多いです。
  HDDのエラー状況を監視するサービスが少ないっていうのもあるんでしょうけどね。
  
  シェア
  
  親コメント
- Re:ほんとかなぁ (スコア:2, 参考になる)
  
  by Anonymous Coward on 2008年10月06日 16時49分 (#1432722)
  
  > 考慮されていなかった、というのが正しい説明かと。
  まさにそれなんじゃないですかね。
  
  「HDDはRAID(1/5/10)で組んでいるから耐障害性も高く、考慮する必要はない。
  　ホットスワップが可能なので、どれか1つが壊れても全体が止まる前に入れ替えれば大丈夫。」
  
  と考えていたのではないでしょうか。
  
  # そして RAID コントローラが壊れる、と。
  
  シェア
  
  親コメント
  - Re:ほんとかなぁ (スコア:4, 興味深い)
    
    by Anonymous Coward on 2008年10月06日 17時00分 (#1432732)
    
    RAID5をホットスワップして復旧中に他のHDDが潰れて復旧不能になったことがあります。
    ググってみると結構な確率で復旧に失敗しているようですRAID5って本当に安心なのか？
    
    シェア
    
    親コメント
    - Re:ほんとかなぁ (スコア:3, 参考になる)
      
      by Anonymous Coward on 2008年10月06日 18時03分 (#1432797)
      
      自宅鯖ですが，この前RAID5からRAID1+LVMに移行しました(10台構成)． RAID5はパリティ付きRAID0ですから，規模が大きくなると全然安心じゃないですよ．台数が二桁に達する辺りから同時故障の危険性が現実味を帯びてきます． HDDの性能特性は容量の伸び＞＞アクセス速度の伸びですから，リビルド時間は今後も増大し，再構築中のトラブル事例はどんどん増えると思います．ある程度の規模にするならば，RAID6にして2台同時故障まで耐えるようにするか， RAID1+0とかRAID1の連結にしてクリティカルな状態に置かれるHDDを限定しないと怖いです．
      
      シェア
      
      親コメント
      - Re:ほんとかなぁ (スコア:1)
        
        by MISSION (13232) on 2008年10月10日 14時18分 (#1435446) 日記
        
        　RAID構成を組むときにはHot stanbyとCold stanby、そして交換用のHDDを用意するのを忘れずに。
        　HDDが壊れたら、自動的にHot stanbyを使用したRAID再構築が始まるので、その間にCold stanbyのHDDに電源を入れ、壊れたHDDを引っこ抜き、交換用HDDを新しいCold stanby HDDを挿入。そして新しい交換用HDDを手配しつつ壊れたHDDを修理に出すなり廃棄するなり。
        
        　上の方にあったRAIDコントローラの破損に対しては、インライン型のRAIDコントローラを使っている場合バックアップ用のRAIDコントローラを用意できるものを選んでおけばRAIDコントローラの二重化である程度まで対処できます。
        
        # 昔ストレージ屋をやっていたときは「ちゃんと」RAIDシステムを組むところにはこういうシステムを組んで納入していた。
        # でもRAIDコントローラ(交換可能な専用バックアップバッテリ付き)の二重化までやった案件って……。
        
        --
        ここは自由の殿堂だ。床につばを吐こうが猫を海賊呼ばわりしようが自由だ。- A.バートラム・チャンドラー銀河辺境シリーズより
        
        シェア
        
        親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        自宅鯖で10台構成とは凄いですね。
        個人的経験だとHDDそのものより電源周りの方が怖くなります。
        あとは冷却性能ですか。
    - Re:ほんとかなぁ (スコア:3, 参考になる)
      
      by Anonymous Coward on 2008年10月06日 21時36分 (#1432933)
      
      ＨＤＤ雑学 No.2 ：データ復旧のオントラック: [ontrack-japan.com]
      
      raid5は壊れる
      
      s-ataは scsiに比べて一桁信頼性が低い。
      
      実際にraidを運用して障害の発生状況。
      
      安価なアレイを選択/運用するときに気をつけたいこと。
      
      などが上げられていて参考になります。
      
      シェア
      
      親コメント
    - Re:ほんとかなぁ (スコア:1, 参考になる)
      
      by Anonymous Coward on 2008年10月06日 17時08分 (#1432740)
      
      RAID5に限らずRAIDは「近いロットの部品を一緒に使わない」がお約束。
      だって壊れるまでの時間が近いロットだと同じかもしれないじゃん。
      ってことは、2つ同時に壊れる確立があがるわけで…。
      
      # うちのPCのRAIDも同時に同じ店で買ったHDDだから不安なAC
      
      シェア
      
      親コメント
      - RAIDの場合は、同じHDDを用意しろというけど (スコア:2, 興味深い)
        
        by 505 (12538) on 2008年10月06日 17時23分 (#1432750)
        
        同じ店から同じタイミングで同じ物を買うと、ロットの近い物になるので、壊れる時は同時に壊れる…
        とはいうものの、RAIDを組む時は同じHDDを使ったほうがいいと言われる…
        わざわざ店変えてまで買う人がどれくらいいるか？？
        まして、買う時期までずらす人って…
        
        時期をずらして、たまたま同容量のHDDを買ったら同じ型番だった…
        んが、見比べたら基板に載ってるICが一つだけ、どう見ても違ってる！(^^;)
        
        シェア
        
        親コメント
        
        Re:RAIDの場合は、同じHDDを用意しろというけど (スコア:2, 参考になる)
        
        by Anonymous Coward on 2008年10月06日 23時18分 (#1433000)
        
        流通経路にもよりますが、新製品なら代理店から販売店に出荷される時点では同一時期の生産品であることが多いので販売店を変えるのはあまり意味がありません。
        枯れた製品ならば製造時期がまちまちな製品が店頭に並んでいるでしようが、そうすると同一型番を同じ店で同時に複数購入してもファームウェアのバージョンが異なる製品を渡されることがありますので注意しないといけません。
        ファームウェアのバージョンまでチェックしている人はそれほど多くないようですが、意外とハマる原因にもなります。
        結局は購入時に店頭でシリアルやファームを確認するのが確実なのでしよう。
        
        実装チップが異なるのはよくあることで、同一型番でも製造時期によって違ったり同一時期の製造でもランダムに別なチップが乗ってたりしますがその理由はわかりません。
        某社のトラブル時もフィリップスと松下の石を乗せた基盤がランダムに混じっていて、トラブルを起こしたのはフィリップスの石を乗せた球だけでした。
        ベンダーによって対応が違がったりして、フィリップスの石を乗せた球だけ交換した会社と問題の無い松下の石が乗った玉も同時に回収した会社に対応が分かれました。
        回収された松下の石を乗せた玉はリース品の中古補修部品に充てられたケースが多かったようなので、異なるチップの採用はコスト面以外にもトラブルに対するリスク分散の意味合いがあるのかもしれません。
        
        シェア
        
        親コメント
      - Re:ほんとかなぁ (スコア:2, 参考になる)
        
        by Anonymous Coward on 2008年10月06日 17時55分 (#1432791)
        
        HitachiのHDDなんか、買う時期とか店が違うと、型番は完全に同じなのに
        容量は変更になってることがあって最悪です。
        しかも、後に生産されたほうが容量が小さかったり。
        
        要注意です。
        
        シェア
        
        親コメント
        
        Re:ほんとかなぁ (スコア:2, 参考になる)
        
        by kei100 (5854) on 2008年10月07日 1時34分 (#1433085)
        
        HGSTなら仕様書で予めセクタ数が決まってる感じなので逆に安心な感じに取ってるのですが。
        
        流通経路によっては客要望でセクタ数の違う物が出てますけどソレですか？
        実はSET MAX ADDRESS掛かってるだけとか。
        参考までに型番,P/N,MLC,製造時期と産地が欲しいかも。
        可能ならIDENTIFY DEVICEが欲しいですけど・・・
        
        # RAIDの片方に使用中のT7K500(HDT725050VLA360)に不良セクタが出来たので余計気になる。
        # まぁ、T7K500は既に製造終了状態ですが。
        
        シェア
        
        親コメント
        
        Re:ほんとかなぁ (スコア:1)
        
        by youichi (329) on 2008年10月06日 18時23分 (#1432816)
        
        もし本当だったら、詐欺だ。
        ＃そういえば、同じ型番が長く続く気がする。
        
        シェア
        
        親コメント
        
        Re:ほんとかなぁ (スコア:1, 興味深い)
        
        by Anonymous Coward on 2008年10月06日 22時03分 (#1432954)
        
        別に詐欺じゃない。
        仕様に書かれている最低容量はどれもクリアしてる製品しか出荷されてない。
        
        問題は、そういうHDDのありきたりな仕様をなーんも考慮せんと
        「目一杯」割り当ててしまう阿呆が居るというだけのことだ。
        メーカーや型番に影響されない様にRAID容量を構成するってのは
        ある意味基本なんだが、そういうノウハウってのは最近の人は知らんのかな？
        
        シェア
        
        親コメント
        
        特にバルクはそんなもん？ (スコア:1)
        
        by GPH (8223) on 2008年10月06日 23時39分 (#1433011) 日記
        
        いや、それは最悪とは限らん。
        正直歩止まりの関係で、完全にそのままのスペックの物が確実に出せるとは限らない。
        
        内部の媒体に不良がある、あるいはヘッドの位置関係で微妙、とか言う製品が出て、だが他の機構は大丈夫そうだ、見たいな商品が出た場合、
        内部のファーム調整やら物理フォーマットの調整やらで、一部ヤバい部分を殺したorヘッド位置決め精度を調整した、格好にしてスペックダウンし出荷する。
        そういうパターンもある。
        
        恐らく日立に限らんと思う。他メーカーで一定だった、というなら恐らく「同じにしてある」と見るべきだろう。
        
        シェア
        
        親コメント
    - Re:ほんとかなぁ (スコア:1, 興味深い)
      
      by Anonymous Coward on 2008年10月06日 17時48分 (#1432780)
      
      RAID1を構成していたシステムで片方のディスクが壊れて修理に呼んだCEが正常なディスクと壊れたディスクを間違えやがって両方とも飛ばしてくれました。バックアップは取ってあったのですが、バックアップとして正、副の2本を取る手順を作成したのですが仮組みのシステムでもありユーザーから作業時間が長引くからと1本だけにしていたのでその一本が読み取れなかったらどうしようかとヒヤヒヤでした。
      「起こる可能性のあることは、いつか実際に起こる。」というマーフィーの法則そのままでした。
      みなさんもくれぐれバックアップの計画は慎重に。。。
      
      シェア
      
      親コメント
    - Re:ほんとかなぁ (スコア:1)
      
      by wildcard (416) on 2008年10月06日 22時33分 (#1432974)
      
      >RAID5って本当に安心なのか？
      
      だめ。RAID6, RAID DP などをつかうべき。
      信頼性がいるなら RAID1+0 も使うべきではない。
      
      シェア
      
      親コメント
  - Re:ほんとかなぁ (スコア:1)
    
    by taka2 (14791) on 2008年10月06日 17時55分 (#1432790) ホームページ日記
    
    消えたら困るクリティカルな情報をHDDに載せてるわけじゃない(上から貰ったデータを蓄えておくだけ)ですし、
    システムの二重化はしているわけですから、
    個々のシステムにはRAIDなんて組んでないんじゃないですかね。
    
    故障を検出したらまるごと障害系に切り替えればいいんだし、
    間に「正常系のRAIDの復旧」なんていう段階を作ると、よけい複雑で危ないと思う。
    
    問題は「故障の検出」ロジックが甘かったからだと言ってるわけですが、最初からHDDを信用せずにエラーが出るのは前提として
    「HDDが読み取りエラーになったときは、必要なデータは上に再度問い合わせる」「エラーが増えてきたら故障と判定」
    するようなシステムだったりして、
    それで「読み取りに行ったらいつまで経っても応答が返ってこない」系のエラーになったりしたら、
    そもそも故障検出システムそのものがちゃんと動かなくなる、なんて可能性もあるんじゃないかと思いますね。
    
    シェア
    
    親コメント
  - Re:ほんとかなぁ (スコア:1)
    
    by beans-beans (28638) on 2008年10月07日 0時07分 (#1433032)
    
    ちゃんと耐障害性が考慮されてるシステムでは
    RAIDのコントローラーもサーバ側のインタフェースも多重化されているし、
    Fibre Channel のスイッチなんかも多重化されていて、
    電源も別系統から取って多重化できるようにできています。
    電気的に引きずられないって事でインタフェースも光だったり。
    RAIDも性能と耐障害性から0+1を選択するでしょうし。
    クラスタリングするとき、フェイルオーバーは導入前のテスト項目として必須ですし。
    # 障害で切り替わらなかったら導入する意味ないもんな
    
    JRの出してるPDFを見た限りでは端末が機能しないことを
    検出できなかっただけのように見えますから、
    ベンダのテスト漏れなんだろうなぁ、という気がします。
    
    それにしてもこのシステムってどれくらいのものなんだろう…。
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    冗長構成は、ほぼ全てが二重になってないとダメでしょうし、場合によっては定期的にメイン/サブの入換運用もしないとダメでしょうしねぇ。
    で、故障時の対応にはホットスワップできないと困るとか。
    ＃うーん、高そうだ
    
    中途半端にお金掛けた構成が出来ちゃうのもダメな気が。
    - Re:ほんとかなぁ (スコア:1)
      
      by quililila (23086) on 2008年10月06日 21時29分 (#1432926) 日記
      
      ほぼ二重化しても切換部分がどうしてもシングルになってしまい、
      しかもあまり使われないためにいざというときに切り替わらない。
      
      ありがちな話で泣けてきます。
      
      シェア
      
      親コメント
- Re:ほんとかなぁ (スコア:1)
  
  by NOBAX (21937) on 2008年10月06日 17時03分 (#1432735)
  
  RAIDに組んでおけば大丈夫
  ってほとんどのシステムはそうじゃないですか？
  RAIDのコントローラが壊れることやRAIDの電源ラインがいかれることまで
  ふつうに想定するものなんでしょうか。
  
  シェア
  
  親コメント
  - Re:ほんとかなぁ (スコア:3, 興味深い)
    
    by okky (2487) on 2008年10月07日 11時44分 (#1433260) ホームページ日記
    
    普通、想定します。
    
    もっと言うと、サーバですら　Active / Standby で同時起動はやらんほうがいい。つーか、数ヶ月動かしたところで、 Standby だけ再起動、とかやる。
    
    例えばLinuxの場合、2.4系列だと 497日問題と言うのがあった。Jiffies が 32bit しかなくて100Hzで更新するので、497日とちょっと経つとカウンターが一周する。softdog とかがこれに対応していなくてリブートしちゃう…なんてのがあった。
    
    こういう問題もあるので、HDDのロットを揃えない、と言うのと同じぐらい「Active　と Standby を同時起動のまま放置しない」「定期的に Active と Standby を切り替えて、今まで Active だったものを reboot」は、本来当たり前に考慮すること。製品のロットだけじゃなく起動時刻なども含めて「あらゆるものを分散させる事で、シンクロニシティを防ぎ、乱数に基づく予測どおりにシステムが故障するように誘導する」のは基本中の基本。
    
    というか、こういう事を考えないと、逆にシステム堅牢性を無駄に高くする必要が出てしまう。Active / Standby を組んでいるのに、Standby が一度も活躍しないまま引退する…というシステムデザインは、それはそれでオーバースペック。もっと安く作ることができたはずだ。
    
    .
    
    と、Staples(アメリカにある、文房具とかの量販店)のシスマネの人に教わりましたよ。去年、弊社の研修を一緒に受けたときに。会社の研修よりもそっちの方がためになったって…ありがたいことでございました。
    
    と同時に、日本のお客様ももう少し、こういう事に耳を傾けて、コスト対効果を考えてもらえんもんかなとしみじみ思いましたとさ。
    
    --
    fjの教祖様
    
    シェア
    
    親コメント
  - 何処で割り切るか (スコア:1)
    
    by hashitom (34540) on 2008年10月06日 17時50分 (#1432785)
    
    Single Point Of Failureを押さえるにはそれなりのコストがかかります。
    ホストシステムだとSPOFを起こさないような構成にする検討は普通にしますし
    部分品が障害を起こしたときに影響の評価もします。
    その上で、場合によっては見なかったことにするのではなしに
    そのリスクを受容した設計にします。
    
    機械部品は電子部品より壊れやすく、電子部品でも接触に頼るものの方が直付けのものよりも
    障害を起こしやすいと、じゃあ、まあ、外部インターフェースを２組持つディスクはないから
    そこはそう割り切ったついでにコントローラーも１つで済ませようとというのが PCベースのサーバーの穏当な落とし所なのだと思います。
    
    シェア
    
    親コメント
    - Re:何処で割り切るか (スコア:1)
      
      by nim (10479) on 2008年10月07日 9時43分 (#1433197)
      
      そうですね。
      PCサーバで高可用性を求める場合は、無理にディスクのRAIDレベルをあげるとか、
      ディスクとのI/Oや電源の冗長化をもとめるよりも、データレプリケーションや
      シェアードナッシング型のクラスタを利用してサーバごと並べる方法が
      使いやすいと思います。
      電源を2つ乗せられる高級サーバよりも、叩き売りサーバを2つ買う方が
      一桁安いですから。
      
      この場合でもネットワークの冗長化は必須ですが、こちらはある程度決まった型が
      できあがっているのでやりやすいです。
      
      シェア
      
      親コメント
  - Re:ほんとかなぁ (スコア:1)
    
    by 335 (4199) on 2008年10月06日 18時30分 (#1432825) 日記
    
    ソフトウェアの設計者が個々のハードウェアの信頼性なんてあいまいな概念をわざわざ設計に
    入れることはない。完全かそうでないかでエラー処理を決めるのが当然だと思います。
    
    ある条件ではコケたら完全に切り替えられるシステムで、「ある条件を分岐しない」
    という記述をするよりも切り替えることにしておくほうが仕様も実装も簡単だし、
    手動でやるべき手続きもとくにないと思う。
    
    それとも切り替えにかなりコストがあるのかなぁ。
    
    シェア
    
    親コメント
  - Re:ほんとかなぁ (スコア:1)
    
    by Hatris (33732) on 2008年10月07日 1時22分 (#1433078) 日記
    
    >RAIDのコントローラが壊れることやRAIDの電源ラインがいかれることまでふつうに想定するものなんでしょうか。
    
    お金次第だと思います。
    私はIT屋じゃなく制御屋なので、例えが離れてしまうのですが、宇宙に送り出す機器は電線が燃えようと、CPUが壊れようと、無線機が壊れようと、極力機能が消失しなように考えられてますしね。
    
    発注している側はsafetyの専門家じゃないでしょうから、一次請けの会社の力不足なんでしょうね。
    
    シェア
    
    親コメント
  - Re:ほんとかなぁ (スコア:1)
    
    by MISSION (13232) on 2008年10月10日 14時27分 (#1435450) 日記
    
    > RAIDのコントローラが壊れることやRAIDの電源ラインがいかれることまで
    ふつうに想定するものなんでしょうか。
    
    　それだけのお金を出してくれるところでは想定します。(＋UPSの多重化)
    　お金のない、或いはケチなところではそこまで想定しません。(想定しても予算がなければそれまで。)
    # 電源を多重化しておきながら、どれか一つでも電源が落ちると電源の供給能力が足りずに落ちてしまうなんて言う間抜けなシステムもあった様な……
    # びんぼは嫌だ
    
    --
    ここは自由の殿堂だ。床につばを吐こうが猫を海賊呼ばわりしようが自由だ。- A.バートラム・チャンドラー銀河辺境シリーズより
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ストレージはRAIDしてDBをクラスタリングした上に定期バックアップしていても
    万全とは思わずに、フェイルオーバー／フェイルセーフを実装するくらいでないと。
    この構成だと障害発生時のシミュレーションテストが非常に面倒だから、
    この辺のノウハウ持ちじゃないと、まともに実装と運用ができない罠
    - Re:ほんとかなぁ (スコア:1)
      
      by terlen0 (37014) on 2008年10月06日 22時44分 (#1432983) 日記
      
      H/WなRAID1で、Oracle動かしています。
      ひとつのカラムにデータ消して書いてを繰り返していたら、特定のセクタに当たっていたんでしょうね。
      マイナーなエラーが１つ、RAIDコントで検出されていましたが、リカバリーされていると出ていました。
      でもOracleはそのカラムに書くことが出来なくなっていました。
      
      RAIDコントはエラーをリカバリできたと思っている。Oracleは書き込めたと思っている。
      その結果、システムが止まりました。
      原因としてはRAIDコントのファームかと思うんだけど。
      
      これも、そんな感じか？
      ガチガチに障害対策したって、いまどきのシステム、出来上がっているものを組み合わせる限りは難しいんじゃないかな。
      納入後にファームアップとかやるし、HDDのロット不良で数年前に泣いた人も多いんでは。
      昔は回路でロジック組んで、それこそバグ（虫）が挟まって停止とかになったけど。
      
      シェア
      
      親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    >RAIDのコントローラが壊れることやRAIDの電源ラインがいかれることまで
    >ふつうに想定するものなんでしょうか
    
    逆にしないの？と尋ねたい。
    インフラ周りやシステム運用・監視の設計・構築では普通考えますね。
- Re:ほんとかなぁ (スコア:1)
  
  by SteppingWind (2654) on 2008年10月06日 21時27分 (#1432925)
  
  もしかして「私(ないしはちゃんと教育を受けた人)が対応すれば『通常すぐに解消する軽微な問題』」だったりして.
  
  よくシステム設計で出てくる「運用で回避」っていう文言は, 回避できる人が運用することが前提だってことを忘れちゃいがちなんですよね.
  
  シェア
  
  親コメント
- Re:ほんとかなぁ (スコア:1)
  
  by greentea (17971) on 2008年10月06日 22時47分 (#1432984) 日記
  
  仕様上「通常すぐに解消する軽微な問題」以外は全て考慮され、コーディングされているのです。
  それゆえ、考慮されていない問題とはすなわち、通常すぐに解消する軽微な問題なのです。
  
  --
  1を聞いて0を知れ!
  
  シェア
  
  親コメント
プログラムミス? (スコア:2, すばらしい洞察)

by Anonymous Coward on 2008年10月06日 16時37分 (#1432716)

処理実装されてなかったんだからミスじゃないよね。
- Re:プログラムミス? (スコア:4, すばらしい洞察)
  
  by Anonymous Coward on 2008年10月06日 16時54分 (#1432728)
  
  ＞処理実装されてなかったんだからミスじゃないよね。
  
  そういうのは設計ミスっていうんじゃない？？
  
  シェア
  
  親コメント
  - Re:プログラムミス? (スコア:2, おもしろおかしい)
    
    by Sukoya (33993) on 2008年10月06日 17時05分 (#1432737) 日記
    
    じゃあ、もう一つ投げて営業の受注ミスということにしておこう！
    
    実際問題、ヒアリングの失敗とか、設計ミスとかが大障害の原因なのに、なんでもかんでもコーダーのプログラムミスとする風潮はなんたるものか
    
    プログラミングミスなんて、優秀なコンパイラが、弾くよ！
    弾くよ！
    
    シェア
    
    親コメント
    - Re:プログラムミス? (スコア:1)
      
      by IZUMI162i6 (27633) <izumi@puni.moe> on 2008年10月06日 19時44分 (#1432864) ホームページ
      
      営業は客に言われた内容を実装するようにしただけだろうから、どっちかというと発注側の要件定義ミスじゃない？
      
      --
      ◆IZUMI162i6 [mailto]
      
      シェア
      
      親コメント
      - Re:プログラムミス? (スコア:1)
        
        by IZUMI162i6 (27633) <izumi@puni.moe> on 2008年10月07日 21時12分 (#1433694) ホームページ
        
        確かに。
        
        ただ、だからこそいい加減なSIがあふれているんですよね。
        頼む方の目が節穴ならそれに合わせた環境が構築されるのは当然で・・。
        
        --
        ◆IZUMI162i6 [mailto]
        
        シェア
        
        親コメント
プログラムの 40% はエラー処理 (スコア:2, 興味深い)

by Anonymous Coward on 2008年10月06日 17時53分 (#1432788)

って話が昔読んだ本に出ていた。

それ以来、関数／手続き呼び出しで、エラー状態がチェックできるものは全てチェックする事にしている。

そんな話じゃないの？

イマドキは処理速度が足りないなんて話はそう無いと思うし、プログラムはロバスト側に最大限に振る位で良いのではないかな。

確かあれは Eiffel の本 [fukkan.com]だったと思う。第 2 版が出ているが、あの厚さに負けて未読。
- Re:プログラムの 40% はエラー処理 (スコア:2, 参考になる)
  
  by Anonymous Coward on 2008年10月06日 18時08分 (#1432800)
  
  さらに残りの 60%中の８割は「プログラムが為すべき処理」ではなく、
  「為すべき処理が行える状態にあるかどうかをチェックする処理」だったりするのもよくある話で。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  もしソフトウェア側で全てチェックするとしたら
  すべてのアクセス（含メモリ）でエラー処理を行う事に。
  ハードもOSも自らの処理も疑う
  qmail並みに疑心暗鬼なものになる？
  現実的な落とし所は難しい
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    フレーム問題ですな。無限の可能性に対処するには無限の処理時間がいる。
    小心者の私は最大限にロバストにふるなんてそうそう簡単には言えません。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      どこにぶら下げるか悩ましいですがこの辺で.
      
      フレーム問題というか,
      要求/開発側ともになにが正しいのかを定義してないんじゃないかな？
      あらゆる問題をチェックするのはそもそも何が問題かがはっきりしてないと出来ないし.
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        >要求/開発側ともになにが正しいのかを定義してないんじゃないかな？
        
        ヤブ蛇の極地ですな
      - Re:プログラムの 40% はエラー処理 ==（追記させてもらいます）何が正しく　何が問題か。 (スコア:0)
        
        by Anonymous Coward
        
        プログラム屋さんは、ハード仕様を2進数のような状況で理解しようとする。
        ハード屋さんは、プログラムを処理結果で理解しようとする。
        その結果、今回のような状況が発生したようにも思うのですが、
        今回の設備のシステム設計・開発に携わった諸氏の中に、一人でも、この不具合を成るべくしてなったと考えておられる方がいる事を信じています。
        それにしても、
        制御設備では、CPU制御が当たり前になっている中で、９９．９％の稼動をCPU制御で保障するって不可能なんだろうか？
        今回のようなCPU制御での構成部品がトラぶった時にも確実に稼動継続できる設備なんて。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    戻ってきた結果に対してのチェックで、正常・異常のほかにその他の処理が抜けている場合が多い。
なんでそんなところにHDD積んでる機器が？ (スコア:1)

by tarosuke (2403) <webmaster@tarosuke.net> on 2008年10月06日 17時38分 (#1432767) 日記

HDDみたいな壊れ方をする機器を現場に置いたらメンテナンスが無駄に大変だろうに。
- Re:なんでそんなところにHDD積んでる機器が？ (スコア:2, 参考になる)
  
  by Anonymous Coward on 2008年10月06日 18時25分 (#1432818)
  
  なんでそんなところにHDD積んでる機器が？
  「そんなところ」というのがどんな場所のことを差して言われているのかがよく分かりませんが、別に新幹線の線路っぱたにHDD積んだ機器があるわけではないと思われます。
  
  # 信号／ポイントを集中制御して列車の運行を管理する（JR東の場合には駅や拠点毎で管轄を分散して処理しているんだったかな？）装置が
  # 各所の制御室（今回の場合は、東京新幹線車両センター内でしょう）にあるんですが、その制御室の自動進路制御装置のHDDが不調を来したんだと思いますよ。
  
  シェア
  
  親コメント
困った・・・ (スコア:0)

by Anonymous Coward on 2008年10月06日 21時37分 (#1432934)

何が困ったって、中の人に対する締め付けがまた一段と厳しくなると言うことかと。

またドキュメントとレビューの要求が一段と厳しくなるかと思うとやりきれません。
当然のごとく人と期間は増えません。

# 微妙に影響しそうなのでAC

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

ほんとかなぁ (スコア:5, すばらしい洞察)

Re:ほんとかなぁ (スコア:4, 参考になる)

Re:ほんとかなぁ (スコア:2, 参考になる)

Re:ほんとかなぁ (スコア:4, 興味深い)

Re:ほんとかなぁ (スコア:3, 参考になる)

Re:ほんとかなぁ (スコア:1)

Re: (スコア:0)

Re:ほんとかなぁ (スコア:3, 参考になる)

Re:ほんとかなぁ (スコア:1, 参考になる)

RAIDの場合は、同じHDDを用意しろというけど (スコア:2, 興味深い)

Re:RAIDの場合は、同じHDDを用意しろというけど (スコア:2, 参考になる)

Re:ほんとかなぁ (スコア:2, 参考になる)

Re:ほんとかなぁ (スコア:2, 参考になる)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:1, 興味深い)

特にバルクはそんなもん？ (スコア:1)

Re:ほんとかなぁ (スコア:1, 興味深い)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:1)

Re: (スコア:0)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:3, 興味深い)

何処で割り切るか (スコア:1)

Re:何処で割り切るか (スコア:1)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:1)

Re: (スコア:0)

Re:ほんとかなぁ (スコア:1)

Re: (スコア:0)

Re:ほんとかなぁ (スコア:1)

Re:ほんとかなぁ (スコア:1)

プログラムミス? (スコア:2, すばらしい洞察)

Re:プログラムミス? (スコア:4, すばらしい洞察)

Re:プログラムミス? (スコア:2, おもしろおかしい)

Re:プログラムミス? (スコア:1)

Re:プログラムミス? (スコア:1)

プログラムの 40% はエラー処理 (スコア:2, 興味深い)

Re:プログラムの 40% はエラー処理 (スコア:2, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:プログラムの 40% はエラー処理 ==（追記させてもらいます）何が正しく 何が問題か。 (スコア:0)

Re: (スコア:0)

なんでそんなところにHDD積んでる機器が？ (スコア:1)

Re:なんでそんなところにHDD積んでる機器が？ (スコア:2, 参考になる)

困った・・・ (スコア:0)

Re:プログラムの 40% はエラー処理 ==（追記させてもらいます）何が正しく　何が問題か。 (スコア:0)