パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

スパコンネットのデータ保存拠点で昨年に発生していた大規模障害、今年3月まで気付かず」記事へのコメント

  • by Anonymous Coward

    これ発見したのスラドでもおなじみreoさん [srad.jp]こと、大阪大学助教の柏崎礼生氏 [osaka-u.ac.jp]だそうです。
    http://b.hatena.ne.jp/entry/263681623/comment/reo_kashiwazaki [hatena.ne.jp]

    3月に指摘した者です。手元で全データのハッシュを保存しておいたので気付くことができ

    • by reo (4042) on 2015年09月26日 9時43分 (#2889214) 日記

      召喚されているとは全く気付かず放置していてすみません。

      ほとんど #2871069 の AC 氏が書かれているので僕が述べることはほとんどないのですが、はてブのコメントに書いた「ハッシュを保存しておいたので気付くことができた」というのは遠因ではあっても直接的な気付きの要因ではありません。釣りっぽいコメントでごめんなさい :-)

      HPCI システムでは Gfarm ファイルシステムによる共用ストレージが提供されています。HPCI システムでは Gfarm ファイルシステムに対する高速なファイルコピーを実現するための高速ステージングコマンドが提供されています。これは並列にファイルコピーを行うことで短時間でコピーを終えることができるコマンドです。

      このコマンドを使ってコピーをした際、コピー元とコピー先が同一であることを確信したい要求が僕の研究にはありました。そこでローカルにあるファイルのハッシュを全て取得し、HPCI システムの共用ストレージにコピーをした結果のハッシュと突き合わせておりました。その途中でいくつかのファイルにおいて Input/output error が発生しました。

      #2871069 の AC 氏は「データのハッシュを自分で記録しておかなくても、データを先頭から全域アクセスすれば、checksum error がユーザーに返るので分かる」と述べられておりますが、この「データを先頭から全域アクセスすれば」ということは HPCI システムの利用者マニュアルには書かれておりません。初めて知りました :-)

      「壊れている複製しかないファイルは 1072/15万=0.7% だけ」という指摘がありましたが、僕の研究でのファイルの扱い方からすると 0.7 % という数字は「エラー率高すぎて恐くて使えるかよ!」というレベルです。僕は共用ストレージに約 1 万のファイルを配置しておりましたので、約 70 ファイルにアクセスできないことになるのですから。

      --
      Hiroki (REO) Kashiwazaki
      親コメント

私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson

処理中...