パスワードを忘れた? アカウント作成
12553966 journal
ニュース

route127の日記: ペタバイト級のデータの移行 77

日記 by route127

ノーベル賞受賞研究で最近も話題となったスーパーカミオカンデだが、16日付官報でその計算機システム一式が「スーパー神岡実験用電子計算機システム一式」名目で資料招請されていた。
気になるのは以下の文言。

D 大量の観測データの長期保存が可能かつ、連続稼働が可能な高い信頼性を持つ10PB程度の大容量のファイルシステムを持つこと。
(中略)
I 現システム上で開発されたユーザーソフトウェア資産及び現システム上に保管されているデータの移行が可能なこと。移行すべきデータは、ディスク上に3PB程度、テープ上には1PB弱となっており、このデータ移行作業も稼働前に完了する必要がある。

これだけのデータ量を扱えるファイルシステムとその移行作業というものに想像がつかないのだけれど、ペタバイトといわずとも大量のデータを扱った経験談があれば聞いてみたい。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • かつて個人的趣味で1年間有料購読したことがあったが。
    とはいえページ毎にブツ切りとかいろいろ不満は残る。

  • by Anonymous Coward on 2015年10月20日 22時17分 (#2903611)

    4TBのHDDを12個搭載したサーバを1000台ぐらい用意してHadoopシステムを構成すれば、HDD容量は合計48PBです。hadoopのデータを3重の冗長化構成とすれば16PBぐらいの容量になります。サーバ1台を100万円で購入できれば空調やラックやスイッチなど周辺装置も含めて20億円ぐらい。

    サーバ1台30kgとして100平方メートルに分散すれば1平方メートルあたりの荷重は0.3トン、周辺装置も含めて0.5トン以下に収まります。

    1サーバが500Wだとトータルで500KW、電気代は月500万円を超えそうです。

    40台のサーバをL2スイッチでまとめて40Gbpsのイーサーネットでつなぐと1000台で合計1Tbpsです。普通のストレージやテープでこの速度のコピーは無理と思いますが、Hadoop間コピーだとサーバ間の分散コピーになるので1Tbpsのコピーができます。4PBのコピーは1日あれば可能です。

  • by Anonymous Coward on 2015年10月20日 17時03分 (#2903378)

    最近AWSでそんなニュース聞いたなあ。
    AWS Import/Export Snowball。これかな?

    「【AWS発表】AWS Import/Export Snowball ? Amazon所有のストレージアプライアンスを利用して1週間あたり1ペタバイトのデータ転送を実現」
    http://aws.typepad.com/aws_japan/2015/10/aws-importexport-snowball-pet... [typepad.com]
    https://aws.amazon.com/jp/importexport/ [amazon.com]
    http://www.publickey1.jp/blog/15/amazon_snowball_aws_reinvent_2015.html [publickey1.jp]
    専用の防水、耐タンパー性(例:データを吸い出すために分解などすると自己破壊する機能)や暗号化機能の付いた、専用HDDユニットで運んでくれるサービスらしい。

    こういうサービスが必要とされるくらいには、大変な作業なんだろう。

    ぐぐってたら、こんなのもひっかかった。
    cloudpack 「データ転送量が必要な場合のみの従量課金サービス」
    http://cloudpack.jp/service/option/data-transfer.html [cloudpack.jp]
    こっちは100GBオーダーだから、全く足りなさそう。
    #注:自分はAmazonの手のものではありません。

    • by Anonymous Coward

      大容量データを遠隔地に移す場合、通信回線を使うよりもHDDを持って飛行機で運んだほうが圧倒的に速いことがありますね。

      メガバンクの統合の時、テープに入った大容量データを大勢の行員たちが手分けして鍵付きのカバンに入れて新幹線で運んでましたね。
      腕とカバンも手錠でつないでいたようないなかったような。

      • by Anonymous Coward on 2015年10月20日 17時55分 (#2903420)

        > 大容量データを遠隔地に移す場合、
        > 通信回線を使うよりもHDDを持って飛行機で運んだほうが圧倒的に速いことがありますね。
        1TBを東京から大阪まで運んだことあります。
        カバンに鍵をかけ手と手錠でつながされました。
        ※親指落とせば手錠はずれるって脅されました。

        親コメント
        • by Anonymous Coward

          1980年代ですが、MTを抱えて太平洋を何往復もしました。せいぜい300MBのディスクがいっぱいになる程度のデータでした。今はいい時代になったものだ。

        • by Anonymous Coward

          指紋認証を突破するのに指を切り落とすくらいやるんだし、本気で盗む奴なら腕くらい切りますよね。
          Raidで使ってるHDDなら1人1台づつ別々のルートで運ばせれば輸送人員の安全は多少は保たれるかもしれないけど。

      • by Anonymous Coward

        警備輸送は使わないのか?

        • by Anonymous Coward on 2015年10月20日 23時04分 (#2903639)

          デコイとしてダミーを輸送させたんじゃね?

          親コメント
          • by Anonymous Coward on 2015年10月21日 10時12分 (#2903794)

            そして本物のデータは頭取が娘さんに買い与えたスマフォの中に仕込まれてて、完全に隠蔽して運べるはずが、何故かバレてて娘さん共々誘拐、暗号化されたデータのパスワードを教えなければ、娘の命は無いとか言われるんですね。
            そして主人公はここまでやっても犯人グループにバレたのは内通者がいたに違いないとかいって平行して犯人捜しをし、内部犯を特定したところで実は銀行の頭取が不正をやっている証拠がその中に含まれていて、内部犯はそれを告発するためにやったんだみたいな事になった直後、内通者は謎のスナイパーに射殺されるんです。
            んで、犯人を追い詰めて港の古倉庫まで追い詰めたところで、銃撃戦とお涙ちょうだいの説得合戦が繰り広げられ、最後娘さんはそもそも誘拐されていたわけで、ほぼ面識が無いはずの主人公に何故か恋愛感情をもって抱きついてスマフォを渡して、主人公の手によって銀行の不正は世に出て世の中は平和になるってもんです。
            そして、巨悪に立ち向かうサイバー犯罪うんぬんみたいな煽り文句で映画になってて、ネット民から「いや、普通に警備運送頼めよ」「サイバー犯罪(物理)」とか煽られる所まで幻視しました。

            いや、真面目にオペレートする本人は中身の具体的データは知らされず、さらにはこれが本物か偽物かも知らされないというのはある事ですけども。

            親コメント
        • by Anonymous Coward

          媒体がコワレモノだから請け負ってもらえなかったのかもしれませんね。
          頑丈な通箱作ってもそれ以降使い道が多分に無いですし。

          • 記憶媒体専門の輸送、保管サービスもありますよ。
            --
            HIRATA Yasuyuki
            親コメント
            • 専門会社じゃなくても普通に運送会社でやってくれますよ。
              もちろん、別途契約になりますが、データセンターのデータの退避のため、週次でテープをトランク詰めして隣県の施設に送ってました。
              帰り便で先週分のテープを持って帰ってもらい、再バックアップするという運用で。

              親コメント
          • by Anonymous Coward

            警備輸送は美術品なども手がけるんで、壊れ物だから無理って事は無いのでは?
            エアサス車でサーバーなんかも警備輸送請け負ってくれますよ。えらい金とられるけど。

            なんで、時間合わせてチャーターしてあったのに不足の自体が発生して使えなくなり、どうにもならなくて社員に持たせたに一票。

    • by Anonymous Coward

      Snowball の移送先の Amazon S3 は 0.000000001%のオブジェクト平均年間予測喪失率 [amazon.com] らしいので,データ量でざっくり計算すると年間 10kB が失われる可能性があるのか。容量がでかいと絶対的な喪失量も大きいな。

  • ペタバイトって何? (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2015年10月20日 17時30分 (#2903401)

    炉利画像?

    • by Anonymous Coward

      業務用の動画編集システムとかだと、ストレージなんて本当にいくらあっても足りないですよ。特に放送がデジタル化した今となっては尚更の事。
      #同様にネットワーク速度も。

  • by cudjo (2713) on 2015年10月21日 1時38分 (#2903698)

    昔、エクサバイトって会社でテープドライブ出してるところがあったよね。
    と思ってググったらあった。 [ascii.jp]
    1999年10月の記事で容量は最大150GB。看板に偽りあり。

  • by Anonymous Coward on 2015年10月20日 17時09分 (#2903382)

    大量のデータを吐き出すスパコンには大容量のストレージ(と可視化システム)が不可欠のはずだが、ペタバイト・クラスものものあるんではないの? そして、それらのデータ移行は?

    • by Anonymous Coward

      1PBクラスのテープライブラリなら、動作試験で組み立てたことがあるよ。納品後の試験もやったけれど、ひたすら三交代で機械の番人でしんどかった。
      全テープ装填テストから始まって、排出テストまでやるのだから、たまらないよ。

      • by Anonymous Coward

        テープって何巻くらいあったの?
        ガッチャガッチャ差し込んだり、順番にガッシャンガッシャン沢山イジェクトされるのカッコイイ!

        • by kei100 (5854) on 2015年10月20日 18時52分 (#2903465)

          現行最大容量のLTO Ultrium6で圧縮が効けば160本、ダメだと400本 [fujitsu.com]みたいですな。
          既に圧縮済みとかで圧縮が効かないワーストでも、6キャビネット有れば保管に関しては満たせそう。

          # 1キャビネットに非圧縮で1.7PB入って1200W程度で済むことに技術の進歩を感じた。

          親コメント
        • by Anonymous Coward on 2015年10月21日 6時08分 (#2903718)

          IBMテープライブラリの導入に携わった事がありますので、一つの事例としてお話します。
          ただし、大型並列計算機への接続ではありません。
          Windows PCネットワークのNASとして納入しました。

          TS3500基本フレーム1台+拡張フレーム1台
          基本フレームにLTO5ドライブを2台装着
          基本フレームにLTO5テープを200巻装填
          ファイルサーバ1台(TS3500とFC接続)
          アセットマネジメントソフト開発+Webサーバ構築(ここは弊社担当)

          エンドユーザ渡しの価格は7000~8000万円程度だったと思います。
          IBM年間保守も乗った価格ですが、どのレベルの契約か正確には覚えていない。

          テープを全部装填すれば

          基本フレーム 1.5テラバイト×287巻=430テラバイト
          拡張フレーム 1.5テラバイト×440巻=660テラバイト

          非圧縮状態で約1ペタバイトなんですが、初年度で700巻買うのは
          お客さん側がキツいという事で、とりあえず200巻で運用開始。

          拡張フレームは15台まで連結できるので、15台×440巻=6600巻
          容量上限は約10ペタバイト。
          逼迫したら拡張フレームを継ぎ足しましょうねという話になってます。
          ギリギリになってから言ってくるのは勘弁して欲しい...

          初めて扱う人がやってしまう落とし穴。
          ロボットアームが止まっているから大丈夫と、フロントドアをうっかり開けてしまう。
          これやっちゃうと、テープドライブも含めたライブラリ装置全体がオフラインになる。
          ドアを閉めても自動では動作復帰しない。
          全テープをドライブに読ませてスキャンさせ直すまで、テープライブラリはオンラインに戻らない。

          ロボットアームの動きだけは結構速いです。
          ドライブからテープを抜く->棚へ戻す->次のテープを取りに行く->ドライブへ入れる
          この一連の動作、20秒くらいで終わります。
          ただ、テープスキャンが長い。どのくらいのレベルで検査をするのか、所要時間が予想できない。
          最短でも1巻3分。200巻で10時間。悪夢というかお客様大激怒。

          親コメント
  • by Anonymous Coward on 2015年10月20日 17時12分 (#2903384)

    なんとなくスパースなデータだろうと想像できるので、圧縮したら
    え、圧縮済でPBですか?
    ...
    移行用I/Fはやっぱりパラな光ファイバなんでしょうね。
    データセンタも神岡(の地下)にあるんだろうか

    #門外漢です

    • PBクラスのデータを圧縮展開って、それだけでも大変そう。
      展開前と展開後の両方を保存できる記憶容量が必要だよね。
      テープ→HDDとかHDD→テープだとHDD容量は半分とかにできるけれど、圧縮しながらテープライブラリに記録していくって勇気が要るなー。途中でこけたら最初からやり直しになりそう……

      単なるコピーと違ってCPUでの圧縮が律速段階になるから、どのくらいの転送速度が出るのか、どれくらいの時間が掛かるのか、事前に計算しにくそう……

      自分ならやりたくねぇ。その分記録メディアを多く購入しようよ……
      親コメント
    • by Anonymous Coward

      >データセンタも神岡(の地下)にあるんだろうか

      大昔見学したが、スーパーカミオカンデの処理システムは坑道の外にあった。
      何度かリプレースしてるだろうが当時は確か富士通のハードだったなー

    • by Anonymous Coward

      どんな感じのデータなんでしょうね。あまり圧縮できないということはノイズが多いとか?

  • by Anonymous Coward on 2015年10月20日 17時36分 (#2903409)

    10ペタバイトってすごいデータ量だなと思ったけど約10,000TBか。
    8TBのHDDを1250個用意すればいいのかな?

    • by Anonymous Coward on 2015年10月20日 18時02分 (#2903425)

      HDDは、平均寿命期間中でも年間3%は壊れるから、1250個もあったら信頼性がどれだけ確保できるか疑問だなあ。信頼性確保の見地からすると、実際にはその2~4倍の台数が必要だろうね。

      親コメント
      • by SteppingWind (2654) on 2015年10月20日 22時16分 (#2903610)

        その昔, DECがまだ存在していた頃, 当時主流の4GBのディスクを使って2TBのストレージシステムを構築した際に, 最悪ケースで毎週数個のディスク障害で交換が必要になるという計算になったことがあります.

        障害が頻発する頃にはディスクの入手が困難になっているだろうから, あらかじめストックしておいたほうがいいですよとは言っておいたんですが, そのプロジェクトからは離れちゃったんでどうなったことやら.

        # そのシステムで作られた製品は世間に広く流通しているので, 問題は無かったんだろうけど

        親コメント
      • by Anonymous Coward

        パレット上かコンテナに収められたストレージユニットを、トラックで運送するイメージ?

    • by Anonymous Coward

      マジレスすると、単純なSAS接続15,000rpmのHDDでは転送速度が絶望的に足りない。
      シーケンシャルな書込みで大体毎秒200MByte程度の書込み速度ですが、8TBのHDDを埋めるためには11時間程度必要となります。

      仮に一般的なHDDとシステムでやろうと思ったら超大規模なRAIDシステムが必要かなと。
      HDDの重さだけで数トンになると思いますw

      • by leiqunni (8779) on 2015年10月20日 22時07分 (#2903605) ホームページ 日記

        10億円拾ったら、1億円でストレージ容量を売る専門会社を起業したいんだけど、
        そのデータセンターはSGかWDの工場の真横に建てるよ。
        先にAIBOに故障HDDの交換やらせること考えなきゃ。

        親コメント
      • by Anonymous Coward on 2015年10月20日 21時02分 (#2903563)

        このクラスって、FUJITSU Storage ETERNUS DX8900 S3とかをFC接続ってのが一般的なんでしょうね。FUJITSU Storage ETERNUS DX8900 S3だと1キャビネットでHDDを4608台、最大13824TBの容量がある。実システムだと正副2台一組で運用するだろうから、結構な威容だよ。
        まあ、基本2.5インチなんで、2TBぐらいのドライブを使うんですけれどね。

        親コメント
        • by ma29nn (35245) on 2015年10月24日 11時23分 (#2905673)

          SATAドライブだと信頼性に欠けるので、SASを使うのが一般的かと。
          そうすると1ドライブ当たり300GBとかが今でも普通ですよ。

          親コメント
      • by Anonymous Coward

        振動対策大変そう。
        そんな重さのものがRAID書き込みで一斉に動き出すとか恐怖でしか無い。

  • by Anonymous Coward on 2015年10月20日 17時49分 (#2903415)

    もう販売終了しちゃったけど、昔こんな製品がありました。
    http://www.sony.jp/products/Professional/DataArchive/products/dtf/peta... [www.sony.jp]

    • by Anonymous Coward

      Petasiteはその昔仕事で携わってた。懐かしい。
      8mmテープの似たようなシステムと違ってUIも近未来的だった。

      • by Anonymous Coward on 2015年10月21日 9時41分 (#2903786)

        営業さんがテープをくしゃくしゃにしても読めるくらいの、耐久性があるんですよ。
        といってたけど、
        使ってる人からアドバイスもらったら「よく、テープ噛んでとまるよ」
        と言われたのは良い思い出

        親コメント
  • by Anonymous Coward on 2015年10月20日 17時55分 (#2903421)

    IBMのディスク格納型装置で、データがどっか行っちゃったから見たら、(どうやら回転でぶっ壊れたメディアが)床に粉々になって落ちていた。

    というのを聞いた覚えが。

  • by Anonymous Coward on 2015年10月20日 18時10分 (#2903431)

    非改竄性も担保するのでしょうか?

  • by Anonymous Coward on 2015年10月20日 21時26分 (#2903581)

    CERNは全体で200か300PBは使ってるって聞いた事あります。
    ソースは俺。

typodupeerror

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

読み込み中...