アカウント名:
パスワード:
産経の記事やreoさんのコメントなどを基にまとめてみます。ただ、詳しい資料があまりないので今回の障害に詳しい方、もしよろしければ補足をお願いします。1. 昨年7月に落雷事故。関連がある可能性はあるが確証は得ていない。2. 昨年8月から10月まで障害が発生。影響を受けたデータは15万件。3. ほとんどのデータはコピーが無事だったので復旧できた。約1072件はコピーも破損したので消えた。(4. この際コピーの破損を検測できず、または検測せずに全データを復旧したと思い込んだ?)5. その後、半年に渡って気づかれなかった。原因は不明。(推測ですが、破損したデータの利用頻度が低い、または自前のソフトのバグだと思って再計算したら直ったので無視した?)6. reo氏はデータのハッシュをローカル保存したので今年3月にデータ破損を発見、指摘。7. 産経の取材で今発表する。
> 3. ほとんどのデータはコピーが無事だったので復旧できた。約1072件はコピーも破損したので消えた。
あってます。ちなみに、このコピーは、ユーザーがとっていたものではなく、ストレージシステム側で、複数のサーバーに自動複製されていたものです。1072件については、障害の発生していたストレージがマスターとなって複製されたため、自動複製されたデータまで壊れていてダメだったんだと思います。
> 5. その後、半年に渡って気づかれなかった。原因は不明。
今回の障害は、ディスクへの書き込みは成功し、またディスクからの読み出しも成功するがデータは化けているとい
一点書き忘れていたので補足します。
>> 6. reo氏はデータのハッシュをローカル保存したので今年3月にデータ破損を発見、指摘。>> reo氏が指摘した経緯はたぶんそれで合ってるんだと思いますが(ただし私は詳しい経緯は知りません)
reo氏のようにデータのハッシュを自分で記録しておかなくても、データを先頭から全域アクセスすれば、checksum error がユーザーに返るので分かる状態でした。 (ただし、FUSE 経由のアクセスの場合は、<errno.h> に checksum error がないため、EIO すなわち Input/output error に見えます)reo 氏以前に気づいた人がいなかったのは、正常な方の複製データへアクセスしていたためではないかという気がします。壊れている複製しかないファイルは 1072/15万=0.7% だけですし。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常
時系列でまとめてみる (スコア:5, 参考になる)
産経の記事やreoさんのコメントなどを基にまとめてみます。ただ、詳しい資料があまりないので今回の障害に詳しい方、もしよろしければ補足をお願いします。
1. 昨年7月に落雷事故。関連がある可能性はあるが確証は得ていない。
2. 昨年8月から10月まで障害が発生。影響を受けたデータは15万件。
3. ほとんどのデータはコピーが無事だったので復旧できた。約1072件はコピーも破損したので消えた。
(4. この際コピーの破損を検測できず、または検測せずに全データを復旧したと思い込んだ?)
5. その後、半年に渡って気づかれなかった。原因は不明。(推測ですが、破損したデータの利用頻度が低い、または自前のソフトのバグだと思って再計算したら直ったので無視した?)
6. reo氏はデータのハッシュをローカル保存したので今年3月にデータ破損を発見、指摘。
7. 産経の取材で今発表する。
Re: (スコア:5, 参考になる)
> 3. ほとんどのデータはコピーが無事だったので復旧できた。約1072件はコピーも破損したので消えた。
あってます。
ちなみに、このコピーは、ユーザーがとっていたものではなく、
ストレージシステム側で、複数のサーバーに自動複製されていたものです。
1072件については、障害の発生していたストレージがマスターとなって複製されたため、
自動複製されたデータまで壊れていてダメだったんだと思います。
> 5. その後、半年に渡って気づかれなかった。原因は不明。
今回の障害は、ディスクへの書き込みは成功し、またディスクからの読み出しも成功するが
データは化けているとい
Re:時系列でまとめてみる (スコア:3, 参考になる)
一点書き忘れていたので補足します。
>> 6. reo氏はデータのハッシュをローカル保存したので今年3月にデータ破損を発見、指摘。
>
> reo氏が指摘した経緯はたぶんそれで合ってるんだと思いますが(ただし私は詳しい経緯は知りません)
reo氏のようにデータのハッシュを自分で記録しておかなくても、データを先頭から全域アクセスすれば、
checksum error がユーザーに返るので分かる状態でした。 (ただし、FUSE 経由のアクセスの場合は、
<errno.h> に checksum error がないため、EIO すなわち Input/output error に見えます)
reo 氏以前に気づいた人がいなかったのは、正常な方の複製データへアクセスしていたため
ではないかという気がします。
壊れている複製しかないファイルは 1072/15万=0.7% だけですし。