ゆうちょ銀行のATM障害、原因はIBM製ストレージシステムのバグ

ゆうちょ銀行のATM障害、原因はIBM製ストレージシステムのバグ 53

タレコミ by Anonymous Coward 2010年08月17日 19時05分

あるAnonymous Coward 曰く、

ITmediaの記事（ソースはSankeiBiz）によると、7月に発生したゆうちょ銀行のATM障害の原因はIBM製のストレージシステムに含まれるバグだった模様。
IBMによると、ゆうちょ銀で発生した障害はHDDの制御装置内にある接続カードのバグで、応答速度だけで正常か異常かを判断するプログラムに原因があったという。
とのこと。記事ではHDDと書かれているが、日経コンピュータの記事などを勘案すると、単純なHDDではなく、ストレージシステムのコントローラ側の問題のようだ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索53コメント Log In/Create an Account

IBMのストレージシステムって故障が多くないか？ (スコア:2, 参考になる)

by Dobon (7495) on 2010年08月18日 11時32分 (#1811395) 日記

IBMのストレージシステムって故障が多いのでは？
以前もオンラインを止めたよね？ [sydrose.com]

--
notice : I ignore an anonymous contribution.
- Re:IBMのストレージシステムって故障が多くないか？ (スコア:2, 興味深い)
  
  by Anonymous Coward on 2010年08月18日 16時15分 (#1811688)
  
  昨年も同じＩＢＭと福岡銀行の組み合わせでやらかしてます。
  バックアップ用のハードディスクのバッテリーを交換してなかったところに
  傷害が発生して福岡銀行のネットワークがダウン。
  福岡銀行には「交換しましたよ。」との報告をしていたそうな。
  福岡銀行からの報告書は以下に。
  http://www.fukuokabank.co.jp/news/h2009/h10-26/20091026.pdf [fukuokabank.co.jp]
  
  シェア
  
  親コメント
  - Re:IBMのストレージシステムって故障が多くないか？ (スコア:2, おもしろおかしい)
    
    by Anonymous Coward on 2010年08月18日 16時58分 (#1811726)
    
    傷害事件にまで発展したんですか。
    
    シェア
    
    親コメント
  - Re:IBMのストレージシステムって故障が多くないか？ (スコア:1)
    
    by Dobon (7495) on 2010年08月18日 18時28分 (#1811797) 日記
    
    もしかして福岡銀行って人柱ユーザですか？
    福岡銀行の勘定系システム障害にかかる原因の判明について [fukuoka-fg.com]
    ２年連続で勘定系を止められては……
    
    --
    notice : I ignore an anonymous contribution.
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  　前の職場でHPのストレージを買ったときのメーカーの売り文句は、「このシリーズは今までデータをロストさせたことがありません」でした。まぁ、入れるだけで億単位の金がかかるストレージですからねぇ。
  - Re:IBMのストレージシステムって故障が多くないか？ (スコア:1)
    
    by PEEK (27419) on 2010年08月19日 9時15分 (#1812068) 日記
    
    「ロストさせたことはありません。灰状態で止まります。ただしKADORTOはありません」
    
    --
    らじゃったのだ
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    いいこと考えた。
    データをロストさせたら、すぐに新製品を発売すれば…
    # ぜんぜん良くねぇ
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      シリーズでの話しなので、同じシリーズで新製品を出してもダメなのでした。
どのモデルなのか (スコア:2)

by tmiura (6268) on 2010年08月19日 13時39分 (#1812233) 日記

一口に磁気ディスク装置といってもDSなのかXIVなのかと思ったけど、銀行のATMの後ろ側だとzSeriesの何かなのかな。
しかし、RAIDコントローラのファームウエアをマイクロコードと呼ぶのはストレージベンダの間では一般的みたいですね。 EMC用語かと思ったら日立もIBMもか。
意外と単純なミスかも (スコア:0)

by Anonymous Coward on 2010年08月18日 14時19分 (#1811577)

ストレージ内に収めるHDD。
コントローラのソフトウェアは上から順番に1・2・3…と認識するが、ハードウェアが認識するのは下から順番に1・2・3…。
でもって、コントローラが「No2のHDDに異常発生！No2緊急停止！！」との命令を実行したところ実際に機能停止したのは別のHDDのだった…とか。
- Re:意外と単純なミスかも (スコア:4, 興味深い)
  
  by gg_pic (10157) on 2010年08月18日 16時37分 (#1811707)
  
  監視ソフトで報告される番号と、実機の番号がずれているなんてのは実はよくある話ですね。
  
  説明書をよーく見ると、付録ページあたりに「以下の機種についてはアラームで通知される番号と実機の番号がずれます」なんて書いてあったりする :-P
  じゃあ報告する意味な(略)
  
  シェア
  
  親コメント
- Re:意外と単純なミスかも (スコア:1, すばらしい洞察)
  
  by Anonymous Coward on 2010年08月18日 14時27分 (#1811584)
  
  説明読みましょうよ。
  1と2のHDDがあって1で断続的なエラーがあった。
  けれどエラー判定で応答速度だけを基準としていたことと、1でエラーがおさまっている時にその判断が行われたため
  応答速度の遅かった2の方でエラーが発生していると判断して2を遮断、その後1がダウン、ってことらしい。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    外野だが、
    応答速度が速い壊れたHDDと
    応答速度が遅いが正確なHDD
    どちらも故障の範囲では？
    - Re:意外と単純なミスかも (スコア:2)
      
      by denchu (6847) on 2010年08月18日 14時56分 (#1811606)
      
      応答速度が遅くなった原因を知りたいですよね。
      どこかにナレッジベースとして登録されないかな？
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        正常な方にアクセスが集中していて遅くなっただけとか
    - Re:意外と単純なミスかも (スコア:2, 興味深い)
      
      by saitoh (10803) on 2010年08月18日 16時58分 (#1811725)
      
      故障判定って難しいですね。もう撤退したから実名出していいだろうけど、ソニーがつくってたRAIDサーバーの故障判断アルゴリズムがまずくて、HDDとある特殊な故障モードになったときにはエラーと判断して切り離すのに何時間もかかる、っていうトラブルに出くわしたことがある。このときは故障したHDDを手でスロットから引っこ抜いて仮復旧させたけど。その後東京から新幹線で代替ドライブを輸送。
      
      シェア
      
      親コメント
      - Re:意外と単純なミスかも (スコア:1, 興味深い)
        
        by Anonymous Coward on 2010年08月18日 18時18分 (#1811790)
        
        最近のHDDのファームは内部でリトライを相当繰り返す仕様になってるみたいで
        I/Oエラーを持って異常とみなすシステムでは故障検知に時間がかかる事例は増えているようです。
        
        シェア
        
        親コメント
        
        Re:意外と単純なミスかも (スコア:2, 興味深い)
        
        by Anonymous Coward on 2010年08月19日 9時31分 (#1812075)
        
        昔はSCSIが当たり前だったので、エラー時の挙動をホスト側からMODE SELECTで設定できたんです。
        リトライ回数の上限とか、自動代替する/しないとか。
        
        今はSATAの、しかもデスクトップPC向けHDDを積んだインチキなシロモノがありますので注意。
        デスクトップPC向けだと、延々とリトライするのが適切な動作ですから。
        RAID向けHDDだとリトライ回数を抑制して一定時間以内にエラー応答を返すようになってます。
        
        ていうか、SAS使ってください。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        SMARTの返す情報が粉飾気味で検査プログラムがドライブの異常を発見できなかったんですかね。
    - Re:意外と単純なミスかも (スコア:1)
      
      by taka2 (14791) on 2010年08月18日 15時21分 (#1811633) ホームページ日記
      
      > 応答速度が遅いが正確なHDD
      たまたま測定時には故障HDDより応答が遅かっただけで、数値としては正常範囲だったんじゃないですかね。
      記事を読むかぎりでは、
      故障発生を検出(ただし、どちらのHDDが故障したかはわからない。)
      →検査プログラムが起動し、応答の遅い方のHDDを故障したものと判定
      という流れのように見受けられます。
      これは根本的に判定アルゴリズムが間違えてるとしか思えないですねぇ…
      せめて、単に応答の遅い早いの比較ではなく、
      「正常範囲外な応答の遅さ」かどうかまで判定しないとダメじゃないかな。
      
      シェア
      
      親コメント
      - Re:意外と単純なミスかも (スコア:2)
        
        by khwarizmi (23623) on 2010年08月18日 21時40分 (#1811896)
        
        家庭用サーバーだと省電力機能とのからみで、意図せずにだんまりになる例は多い気がする。純粋サーバ向けHDDだとそんなことはないのだろうけど、普通に売ってるHDDだと省電力機能を全部切っても勝手にスリープ入ってくれたりと、わりとお行儀がよくないで。
        
        シェア
        
        親コメント
        
        Re:意外と単純なミスかも (スコア:2, 参考になる)
        
        by kei100 (5854) on 2010年08月18日 23時39分 (#1811956)
        
        それは、OS設定以外の省電力設定(HDD自身に設定可能なAPM)、
        M/B付属の省電力ユーティリティ(例:GIGABYTE Dynamic Energy Saver)が有効であったり、
        もしくは、本来解ってて使う事が前提のWD GPシリーズでは？
        それなりの理由があるのに、大容量で安いからという理由だけで知らずに使ってるケースが・・・
        元はD2D2Tの受け側のD(仮想テープ)とかの待機時間が非常に長く、ランダム性能もそんなに必要なく、でも容量は沢山あると嬉しいといった用途向けです。
        (WDの一般向けはBlue、ハイエンドがBlack)
        ちなみに、一般に出ているサーバー向けでないGPシリーズは、
        この話題と同じような理由でRAIDカードと相性が悪く、
        タイムアウトで故障判定されてアレイがデグレするケースがありますので安価に大容量アレイを組もうと思う方は御注意ください。
        まぁ、WDなんで別の問題かもしれませんが。(Seagate/HGSTと比べて独特な挙動をする事がまま有る)
        嫌らしいのはサーバー向けGPだと大丈夫だったりするようで、何かが違うのでしょう。
        # バックアップする時だけ使って、終わったら放置みたいな用途とか、自前のデータアーカイブに使うには発熱も少なく静かで良い感じです。
        
        シェア
        
        親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        　エラーの発生回数で故障診断プログラムを起動したのだから、エラーの発生回数で故障診断をしなければ駄目でしょう。私なら、もし部下がIBMの今回の故障診断プログラムの様な仕様書を持ってきたら、即没にして、なぜ没なのか考えろと言ってつき返しますね。
        　ちなみに、ライバルのHPでそれなりの保守契約を結ぶと、エラーの発生回数が多いHDDが見つかると、壊れる前に交換提案をしてきます。が、交換後のデータ復旧中に別のHDDが突然死することが稀にあり、書き込みホール対策をしている中級クラスのストレージでも、RAIDの組み方によってはデータをロストしたりします。一番上のシリーズだとその程度でロストするようなちゃちなRAIDの組み方はしていませんけど。
記事を見る限り……… (スコア:0)

by Anonymous Coward on 2010年08月18日 14時39分 (#1811594)

メインがおかしいと誤判断して冗長系に切り替えたら、落ちたという冗談みたいな話に見えるんだけど？
ゆうちょのシステムはどうなっているんだ
#ACで矢継ぎ早にコメントしたら「ゆっくりさん」がでてしまったorz
- Re:記事を見る限り……… (スコア:4, 興味深い)
  
  by Anonymous Coward on 2010年08月18日 17時06分 (#1811732)
  
  冗談みたいな話はいろいろありますよ。
  某旧帝大の大型計算機センターで「RAIDですから」と豪語していたディスク装置のドライブが1個壊れたとかね。壊れた後でわかったけどRAID0だった。
  教育用計算機センターで「RAIDのパラメータを改善したいのでテープにフルバックアップを取ってRAIDを再構成します」という作業をしてもらったら「戻そうとしたらバックアップしたテープ読めません」となっちゃったと。
  パスワード管理システムをバグフィックスしてもらったら、新たにエンバグしてパスワードファイルを丸ごと吹っ飛ばした。問い詰めてみるとろくにテストもせずに開発した修正をいきなり実機に入れていた。
  イントラネットでの負荷分散装置が全然効かないので調べてみたら、クライアントのIPアドレスベースで分散する装置だった。そしてクライアントは全部NATの向こうなのでソースIPアドレスは1種類だった。
  
  シェア
  
  親コメント
  - Re:記事を見る限り……… (スコア:2, すばらしい洞察)
    
    by taka2 (14791) on 2010年08月18日 18時39分 (#1811805) ホームページ日記
    
    > 「RAIDですから」(略)壊れた後でわかったけどRAID0だった。
    これって、そもそも「RAID0」って言葉が最大の諸悪の根源な気がする。
    ただのストライピングでどこにも冗長性がないものを「Redundant」って名乗るな!
    って感じで。
    最初のRAIDの論文には、当然のことながらRAID0なんて言及してなかった覚えがあるのですが…
    それが今では普通にRAIDの一種みたいに扱われたりして…
    いったい誰だよRAID0なんて言葉を使いだしたヤツは
    
    シェア
    
    親コメント
    - Re:記事を見る限り……… (スコア:1)
      
      by miishika (12648) on 2010年08月18日 21時16分 (#1811886) 日記
      
      RAIDは"Redundant Arrays of Inexpensive Disks"の省略形なので、冗長性(Redundancy)のないRAID0は"AID"と呼べばよいのでは。
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      「水銀ゼロ使用」みたいなものでは
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      >これって、そもそも「RAID0」って言葉が最大の諸悪の根源な気がする。
      >ただのストライピングでどこにも冗長性がないものを「Redundant」って名乗るな!
      >って感じで。
      
      RAID0って冗長性が0(無い)ってコトなのですかね・・・
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        > RAID0って冗長性が0(無い)ってコトなのですかね・・・
        そのとおりですよ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    10年ちょっと前，某社での出来事．
    ネットワーク環境の改善のため，事業所内で使っているハブをスイッチングハブに総入れ替えした．しかし全然変わらないので，管理部門に「ちょっと見せてみろ！」と乗り込んで行ったら，一番根っこのところで全てのスイッチングハブは馬鹿ハブの下にカスケードされていた．
  - RAIDの信頼性 (スコア:0)
    
    by Anonymous Coward
    
    「うちはRAID5だから大丈夫。バックアップテープなんかいらない」
    なんていう似非技術者は少なくないわけですが、そういう外部バックアップまで
    ケチるようなところに限って、RAID5でディスクが壊れても、
    「RAIDだから大丈夫大丈夫。余裕があるときにゆっくり交換すればいい」
    なんて言ってて、他のディスクも壊れてディスクシステム崩壊なんてことが
    あったりするんですよね。
    
    壊れかけのRAID5なんて、RAID0と変わらないわけですよ。
    
    HPC用途だと、高速化が目的でRAID0とかしたりすることがあるかもしれないですね。
    RAID5だと計算結果の記録に失敗する可能性が高いので使えませんし。
    RAID10とかにするのがいいのかなあ。
    
    とにかく、みんなRAID5を信用し過ぎだと思う。
    RAID5なんてのは、仕方が無い場合にのみ使うもんだ。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      壊れーかけのRAIDー♪って歌有りましたよね？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      RAID5だと計算結果の記録に失敗する可能性が高いので使えませんし。
      　って…、RAIDコントローラーがバグっているのが原因で、計算結果の記録に失敗しているのでは?
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        >って?、RAIDコントローラーがバグっているのが原因で、計算結果の記録に失敗しているのでは?
        
        惜しいけど、ちょっと違います。
        書き込みホールってやつです。
        
        記録に失敗はあってますが、問題はその発生するタイミング。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        書き込みホールってやつです。
        だとすると、電源の信頼性を上げ、エラー時の処理を工夫することで、「記録に失敗する可能性が高い」とは言えない状況にできますよ。さらに、一定時間RAID化前のデータをバッテリバックアップしたメモリにも記録しておけば、事実上支障のないレベルに持っていけるでしょう。
        　現実問題として、RAID1+0より上のものとして、RAID1+5やRAID1+6なんてのもあったりします。電源を含めたほとんどの部品が活線で交換できるクラスのストレージじゃないと、使う意味はありませんが(RAID6+6なんてのもありますが、メガバンクや大規模な証券会社位じゃないとコスト的に採用できないでしょう)。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  つまりこういうこと [plala.or.jp]かね
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ♪しーかたっが無いからパケット投～げた♪さっきのパケット中身はなぁに？
    こうですね、わかります。
    ＃思いっきりAC。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  自動車のタイヤがパンクしたからスペアタイヤに代えようと思ったら
  スペアの空気が抜けてたとか、ありがちな話ですな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  むしろ、冗長系において故障側を切り離すはずが、故障した側を判断するルーチンのミスで正常側を切り離したように読める。
  #二重化されてるのはまあ当然として、さらにそれと同期取ってる予備系は無かったんかね？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    予備系もしっかり同期とって壊して切り離しました！
バグではなく仕様です (スコア:0)

by miyuri (33181) on 2010年08月18日 14時57分 (#1811608) 日記

T/O
あのなついあつの日 (スコア:0)

by Anonymous Coward on 2010年08月18日 15時28分 (#1811644)

今は亡きF銀行のRECONデータを1トラック0で上書きしてしまったおかげで、 8時間Online止めてしまったことをもうお忘れか
497日問題の可能性 (スコア:0)

by Anonymous Coward on 2010年08月18日 21時01分 (#1811880)

あくまで推測ですが、初見でLinuxカーネルの497日問題ではないかと思いました。
うちの会社で使用している、あるネットワーク機器も、
497日以上稼働すると状態監視用のデーモンが異常な検知をしてしまう
という不具合がありました。
ネットワーク機器や、ストレージ機器では、定期的なリブートが
必要というのは、よくある話みたいですよ。
- Re:497日問題の可能性 (スコア:3, すばらしい洞察)
  
  by Anonymous Coward on 2010年08月18日 21時27分 (#1811892)
  
  いや、だから根拠の無い推測する前に、紹介されている記事読みましょうよ。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    夏だから仕方あるまい。
- DS8xxx (スコア:0)
  
  by Anonymous Coward
  
  PowerNを使っているAIXベースなのだが…。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  初見でなんでLinuxだと思ったんだろ、497日問題はWindowsにもあるんだが…なんかホント色々浅いなぁ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    > 初見でなんでLinuxだと思ったんだろ、497日問題はWindowsにもあるんだが?なんかホント色々浅いなぁ
    
    君も似たようなもんだと思うぞ。
    
    ゆうちょの基幹システムに古いWindows2000とかXPとか使ってるとでも？
    
    ま、Linuxの2.4以前の古いサーバを497日以上も連続稼働させているような
    危険な運用をしていると想像するほうも想像するほうだが。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    HP-UXにもあるらしいぞ
    http://www.hitachi.co.jp/Prod/comp/soft1/HP-UX/files/hpinfo_0904.pdf [hitachi.co.jp]
    そしてアプリケーションにも497日問題がある可能性も否めない。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

ゆうちょ銀行のATM障害、原因はIBM製ストレージシステムのバグ More ログイン

IBMのストレージシステムって故障が多くないか？ (スコア:2, 参考になる)

Re:IBMのストレージシステムって故障が多くないか？ (スコア:2, 興味深い)

Re:IBMのストレージシステムって故障が多くないか？ (スコア:2, おもしろおかしい)

Re:IBMのストレージシステムって故障が多くないか？ (スコア:1)

Re: (スコア:0)

Re:IBMのストレージシステムって故障が多くないか？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

どのモデルなのか (スコア:2)

意外と単純なミスかも (スコア:0)

Re:意外と単純なミスかも (スコア:4, 興味深い)

Re:意外と単純なミスかも (スコア:1, すばらしい洞察)

Re: (スコア:0)

Re:意外と単純なミスかも (スコア:2)

Re: (スコア:0)

Re:意外と単純なミスかも (スコア:2, 興味深い)

Re:意外と単純なミスかも (スコア:1, 興味深い)

Re:意外と単純なミスかも (スコア:2, 興味深い)

Re: (スコア:0)

Re:意外と単純なミスかも (スコア:1)

Re:意外と単純なミスかも (スコア:2)

Re:意外と単純なミスかも (スコア:2, 参考になる)

Re: (スコア:0)

記事を見る限り……… (スコア:0)

Re:記事を見る限り……… (スコア:4, 興味深い)

Re:記事を見る限り……… (スコア:2, すばらしい洞察)

Re:記事を見る限り……… (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

RAIDの信頼性 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

バグではなく仕様です (スコア:0)

あのなついあつの日 (スコア:0)

497日問題の可能性 (スコア:0)

Re:497日問題の可能性 (スコア:3, すばらしい洞察)

Re: (スコア:0)

DS8xxx (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)