ゆうちょ銀行のATM障害、原因はIBM製ストレージシステムのバグ 53
タレコミ by Anonymous Coward
あるAnonymous Coward 曰く、
ITmediaの記事(ソースはSankeiBiz)によると、7月に発生したゆうちょ銀行のATM障害の原因はIBM製のストレージシステムに含まれるバグだった模様。IBMによると、ゆうちょ銀で発生した障害はHDDの制御装置内にある接続カードのバグで、応答速度だけで正常か異常かを判断するプログラムに原因があったという。
とのこと。記事ではHDDと書かれているが、日経コンピュータの記事などを勘案すると、単純なHDDではなく、ストレージシステムのコントローラ側の問題のようだ。
IBMのストレージシステムって故障が多くないか? (スコア:2, 参考になる)
以前もオンラインを止めたよね? [sydrose.com]
notice : I ignore an anonymous contribution.
Re:IBMのストレージシステムって故障が多くないか? (スコア:2, 興味深い)
昨年も同じIBMと福岡銀行の組み合わせでやらかしてます。
バックアップ用のハードディスクのバッテリーを交換してなかったところに
傷害が発生して福岡銀行のネットワークがダウン。
福岡銀行には「交換しましたよ。」との報告をしていたそうな。
福岡銀行からの報告書は以下に。
http://www.fukuokabank.co.jp/news/h2009/h10-26/20091026.pdf [fukuokabank.co.jp]
Re:IBMのストレージシステムって故障が多くないか? (スコア:2, おもしろおかしい)
傷害事件にまで発展したんですか。
Re:IBMのストレージシステムって故障が多くないか? (スコア:1)
福岡銀行の勘定系システム障害にかかる原因の判明について [fukuoka-fg.com]
2年連続で勘定系を止められては……
notice : I ignore an anonymous contribution.
Re: (スコア:0)
Re:IBMのストレージシステムって故障が多くないか? (スコア:1)
「ロストさせたことはありません。灰状態で止まります。ただしKADORTOはありません」
らじゃったのだ
Re: (スコア:0)
いいこと考えた。
データをロストさせたら、すぐに新製品を発売すれば…
# ぜんぜん良くねぇ
Re: (スコア:0)
どのモデルなのか (スコア:2)
一口に磁気ディスク装置といってもDSなのかXIVなのかと思ったけど、 銀行のATMの後ろ側だとzSeriesの何かなのかな。
しかし、RAIDコントローラのファームウエアをマイクロコードと呼ぶのは ストレージベンダの間では一般的みたいですね。 EMC用語かと思ったら日立もIBMもか。
意外と単純なミスかも (スコア:0)
ストレージ内に収めるHDD。
コントローラのソフトウェアは上から順番に1・2・3…と認識するが、ハードウェアが認識するのは下から順番に1・2・3…。
でもって、コントローラが「No2のHDDに異常発生!No2緊急停止!!」との命令を実行したところ実際に機能停止したのは別のHDDのだった…とか。
Re:意外と単純なミスかも (スコア:4, 興味深い)
説明書をよーく見ると、付録ページあたりに「以下の機種についてはアラームで通知される番号と実機の番号がずれます」なんて書いてあったりする :-P
じゃあ報告する意味な(略)
Re:意外と単純なミスかも (スコア:1, すばらしい洞察)
説明読みましょうよ。
1と2のHDDがあって1で断続的なエラーがあった。
けれどエラー判定で応答速度だけを基準としていたことと、1でエラーがおさまっている時にその判断が行われたため
応答速度の遅かった2の方でエラーが発生していると判断して2を遮断、その後1がダウン、ってことらしい。
Re: (スコア:0)
外野だが、
応答速度が速い壊れたHDDと
応答速度が遅いが正確なHDD
どちらも故障の範囲では?
Re:意外と単純なミスかも (スコア:2)
応答速度が遅くなった原因を知りたいですよね。
どこかにナレッジベースとして登録されないかな?
Re: (スコア:0)
Re:意外と単純なミスかも (スコア:2, 興味深い)
Re:意外と単純なミスかも (スコア:1, 興味深い)
最近のHDDのファームは内部でリトライを相当繰り返す仕様になってるみたいで
I/Oエラーを持って異常とみなすシステムでは故障検知に時間がかかる事例は増えているようです。
Re:意外と単純なミスかも (スコア:2, 興味深い)
リトライ回数の上限とか、自動代替する/しないとか。
今はSATAの、しかもデスクトップPC向けHDDを積んだインチキなシロモノがありますので注意。
デスクトップPC向けだと、延々とリトライするのが適切な動作ですから。
RAID向けHDDだとリトライ回数を抑制して一定時間以内にエラー応答を返すようになってます。
ていうか、SAS使ってください。
Re: (スコア:0)
Re:意外と単純なミスかも (スコア:1)
> 応答速度が遅いが正確なHDD
たまたま測定時には故障HDDより応答が遅かっただけで、数値としては正常範囲だったんじゃないですかね。
記事を読むかぎりでは、
故障発生を検出(ただし、どちらのHDDが故障したかはわからない。)
→検査プログラムが起動し、応答の遅い方のHDDを故障したものと判定
という流れのように見受けられます。
これは根本的に判定アルゴリズムが間違えてるとしか思えないですねぇ…
せめて、単に応答の遅い早いの比較ではなく、
「正常範囲外な応答の遅さ」かどうかまで判定しないとダメじゃないかな。
Re:意外と単純なミスかも (スコア:2)
家庭用サーバーだと省電力機能とのからみで、意図せずにだんまりになる例は多い気がする。純粋サーバ向けHDDだとそんなことはないのだろうけど、普通に売ってるHDDだと省電力機能を全部切っても勝手にスリープ入ってくれたりと、わりとお行儀がよくないで。
Re:意外と単純なミスかも (スコア:2, 参考になる)
それは、OS設定以外の省電力設定(HDD自身に設定可能なAPM)、
M/B付属の省電力ユーティリティ(例:GIGABYTE Dynamic Energy Saver)が有効であったり、
もしくは、本来解ってて使う事が前提のWD GPシリーズでは?
それなりの理由があるのに、大容量で安いからという理由だけで知らずに使ってるケースが・・・
元はD2D2Tの受け側のD(仮想テープ)とかの待機時間が非常に長く、ランダム性能もそんなに必要なく、でも容量は沢山あると嬉しいといった用途向けです。
(WDの一般向けはBlue、ハイエンドがBlack)
ちなみに、一般に出ているサーバー向けでないGPシリーズは、
この話題と同じような理由でRAIDカードと相性が悪く、
タイムアウトで故障判定されてアレイがデグレするケースがありますので安価に大容量アレイを組もうと思う方は御注意ください。
まぁ、WDなんで別の問題かもしれませんが。(Seagate/HGSTと比べて独特な挙動をする事がまま有る)
嫌らしいのはサーバー向けGPだと大丈夫だったりするようで、何かが違うのでしょう。
# バックアップする時だけ使って、終わったら放置みたいな用途とか、自前のデータアーカイブに使うには発熱も少なく静かで良い感じです。
Re: (スコア:0)
エラーの発生回数で故障診断プログラムを起動したのだから、エラーの発生回数で故障診断をしなければ駄目でしょう。私なら、もし部下がIBMの今回の故障診断プログラムの様な仕様書を持ってきたら、即没にして、なぜ没なのか考えろと言ってつき返しますね。
ちなみに、ライバルのHPでそれなりの保守契約を結ぶと、エラーの発生回数が多いHDDが見つかると、壊れる前に交換提案をしてきます。が、交換後のデータ復旧中に別のHDDが突然死することが稀にあり、書き込みホール対策をしている中級クラスのストレージでも、RAIDの組み方によってはデータをロストしたりします。一番上のシリーズだとその程度でロストするようなちゃちなRAIDの組み方はしていませんけど。
記事を見る限り……… (スコア:0)
メインがおかしいと誤判断して冗長系に切り替えたら、落ちたという冗談みたいな話に見えるんだけど?
ゆうちょのシステムはどうなっているんだ
#ACで矢継ぎ早にコメントしたら「ゆっくりさん」がでてしまったorz
Re:記事を見る限り……… (スコア:4, 興味深い)
某旧帝大の大型計算機センターで「RAIDですから」と豪語していたディスク装置のドライブが1個壊れたとかね。 壊れた後でわかったけどRAID0だった。
教育用計算機センターで「RAIDのパラメータを改善したいのでテープにフルバックアップを取ってRAIDを再構成します」という作業をしてもらったら「戻そうとしたらバックアップしたテープ読めません」となっちゃったと。
パスワード管理システムをバグフィックスしてもらったら、新たにエンバグしてパスワードファイルを丸ごと吹っ飛ばした。問い詰めてみるとろくにテストもせずに開発した修正をいきなり実機に入れていた。
イントラネットでの負荷分散装置が全然効かないので調べてみたら、クライアントのIPアドレスベースで分散する装置だった。そしてクライアントは全部NATの向こうなのでソースIPアドレスは1種類だった。
Re:記事を見る限り……… (スコア:2, すばらしい洞察)
> 「RAIDですから」(略)壊れた後でわかったけどRAID0だった。
これって、そもそも「RAID0」って言葉が最大の諸悪の根源な気がする。
ただのストライピングでどこにも冗長性がないものを「Redundant」って名乗るな!
って感じで。
最初のRAIDの論文には、当然のことながらRAID0なんて言及してなかった覚えがあるのですが…
それが今では普通にRAIDの一種みたいに扱われたりして…
いったい誰だよRAID0なんて言葉を使いだしたヤツは
Re:記事を見る限り……… (スコア:1)
Re: (スコア:0)
「水銀ゼロ使用」みたいなものでは
Re: (スコア:0)
>ただのストライピングでどこにも冗長性がないものを「Redundant」って名乗るな!
>って感じで。
RAID0って冗長性が0(無い)ってコトなのですかね・・・
Re: (スコア:0)
> RAID0って冗長性が0(無い)ってコトなのですかね・・・
そのとおりですよ。
Re: (スコア:0)
10年ちょっと前,某社での出来事.
ネットワーク環境の改善のため,事業所内で使っているハブをスイッチングハブに総入れ替えした.しかし全然変わらないので,管理部門に「ちょっと見せてみろ!」と乗り込んで行ったら,一番根っこのところで全てのスイッチングハブは馬鹿ハブの下にカスケードされていた.
RAIDの信頼性 (スコア:0)
なんていう似非技術者は少なくないわけですが、そういう外部バックアップまで
ケチるようなところに限って、RAID5でディスクが壊れても、
「RAIDだから大丈夫大丈夫。余裕があるときにゆっくり交換すればいい」
なんて言ってて、他のディスクも壊れてディスクシステム崩壊なんてことが
あったりするんですよね。
壊れかけのRAID5なんて、RAID0と変わらないわけですよ。
HPC用途だと、高速化が目的でRAID0とかしたりすることがあるかもしれないですね。
RAID5だと計算結果の記録に失敗する可能性が高いので使えませんし。
RAID10とかにするのがいいのかなあ。
とにかく、みんなRAID5を信用し過ぎだと思う。
RAID5なんてのは、仕方が無い場合にのみ使うもんだ。
Re: (スコア:0)
壊れーかけのRAIDー♪って歌有りましたよね?
Re: (スコア:0)
って…、RAIDコントローラーがバグっているのが原因で、計算結果の記録に失敗しているのでは?
Re: (スコア:0)
惜しいけど、ちょっと違います。
書き込みホールってやつです。
記録に失敗はあってますが、問題はその発生するタイミング。
Re: (スコア:0)
だとすると、電源の信頼性を上げ、エラー時の処理を工夫することで、「記録に失敗する可能性が高い」とは言えない状況にできますよ。さらに、一定時間RAID化前のデータをバッテリバックアップしたメモリにも記録しておけば、事実上支障のないレベルに持っていけるでしょう。
現実問題として、RAID1+0より上のものとして、RAID1+5やRAID1+6なんてのもあったりします。電源を含めたほとんどの部品が活線で交換できるクラスのストレージじゃないと、使う意味はありませんが(RAID6+6なんてのもありますが、メガバンクや大規模な証券会社位じゃないとコスト的に採用できないでしょう)。
Re: (スコア:0)
つまりこういうこと [plala.or.jp]かね
Re: (スコア:0)
♪しーかたっが無いからパケット投~げた♪さっきのパケット中身はなぁに?
こうですね、わかります。
#思いっきりAC。
Re: (スコア:0)
自動車のタイヤがパンクしたからスペアタイヤに代えようと思ったら
スペアの空気が抜けてたとか、ありがちな話ですな。
Re: (スコア:0)
むしろ、冗長系において故障側を切り離すはずが、故障した側を判断するルーチンのミスで正常側を切り離したように読める。
#二重化されてるのはまあ当然として、さらにそれと同期取ってる予備系は無かったんかね?
Re: (スコア:0)
予備系もしっかり同期とって壊して切り離しました!
バグではなく仕様です (スコア:0)
あのなついあつの日 (スコア:0)
497日問題の可能性 (スコア:0)
うちの会社で使用している、あるネットワーク機器も、
497日以上稼働すると状態監視用のデーモンが異常な検知をしてしまう
という不具合がありました。
ネットワーク機器や、ストレージ機器では、定期的なリブートが
必要というのは、よくある話みたいですよ。
Re:497日問題の可能性 (スコア:3, すばらしい洞察)
Re: (スコア:0)
夏だから仕方あるまい。
DS8xxx (スコア:0)
Re: (スコア:0)
初見でなんでLinuxだと思ったんだろ、497日問題はWindowsにもあるんだが…なんかホント色々浅いなぁ
Re: (スコア:0)
君も似たようなもんだと思うぞ。
ゆうちょの基幹システムに古いWindows2000とかXPとか使ってるとでも?
ま、Linuxの2.4以前の古いサーバを497日以上も連続稼働させているような
危険な運用をしていると想像するほうも想像するほうだが。
Re: (スコア:0)
HP-UXにもあるらしいぞ
http://www.hitachi.co.jp/Prod/comp/soft1/HP-UX/files/hpinfo_0904.pdf [hitachi.co.jp]
そしてアプリケーションにも497日問題がある可能性も否めない。