パスワードを忘れた? アカウント作成
12764 story

理研が 1ペタフロップスのスパコン「MDGRAPE-3」を構築 95

ストーリー by yosuke
本家が1PFLOPSに届くのは2年先 部門より

KAMUI曰く、"独立行政法人理化学研究所インテル日本SGIの協力で,理論ピーク性能 1 PFLOPS (1秒間に1,000兆回の演算能力)を持つ分子動力学シミュレーション専用コンピュータ・システムMDGRAPE-3を構築したことを発表した(理研のプレスリリース)。
理研が開発した分子動力学シミュレーション専用LSI「MDGRAPE-3チップ」を24個搭載したユニット201台(一部のチップに不良があり,動作しているのは計 4,808個)と,Dual Core Xeon 5000番台を 256個搭載した並列サーバ 64台,更に Xeon 3.2GHz(2次キャッシュ1MB)を 74個搭載した並列サーバ 37台を連結している。
昨年 TOP500 で世界最速となった IBM Blue Gene/L が現時点では 360 TFLOPS。MDGRAPE-3 の理論演算性能は Blue Gene の約 3倍あるが,LINPACK が動作しないため,TOP500 の首位は交代しない。
東工大の TSUBAME が稼働した時「日本で 100 TFLOPS を越えるのは何時の日だろう」なんて書いたのに,あっと言う間というか…"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by clubx (27914) on 2006年06月20日 9時26分 (#963615)
    分子動力学シミュレーションなどに特化した専用コンピュータが、
    スパコンも含む、汎用コンピュータよりスピードが出るのは当然だと思います。
    何フロップスといった尺度で単純に比較するのは既に意味がないということでしょう。
    • 単位 Re:専用コンピュータ (スコア:3, おもしろおかしい)

      by Anonymous Coward on 2006年06月20日 10時03分 (#963655)
      じゃあ、単位を工夫しよう。

      社会にもたらす利益(円) / 秒

      というのはどうか。
      親コメント
      • by Anonymous Coward on 2006年06月20日 10時51分 (#963688)
        >社会にもたらす利益(円) / 秒

        んなコト言ったら、元祖GRAPEなんて0円/秒ですがなw

        恒星の大規模な軌道計算したところで、その計算力が直接的に社会に金銭的利益を与えてるかというと、無いだろうからw
        まぁ、基礎研究なんてそんなもんですね…。
        親コメント
      • その計算機を使用して書かれた論文のインパクトファクターを累計したモノでいいんじゃない?
        親コメント
        • by flutist (16098) on 2006年06月20日 12時04分 (#963739)
          うわぁ、そりゃちょっと生々しすぎて、かなりプレッシャーです。

          たとえば革新的アルゴリズムで何十本も書いても、Nature一報に負けちゃうという悲しい事情もあるので、IF偏重はご勘弁。
          親コメント
        • また誤解が (スコア:3, 興味深い)

          by nq (16642) on 2006年06月20日 12時11分 (#963746) 日記
          インパクトファクターというのは、雑誌媒体に対する、ある種の評価であって、その雑誌に掲載されている個別の論文の質を示すものはありません。
          (研究者には当然の常識でしょうが)
          親コメント
    • by TarZ (28055) on 2006年06月20日 9時38分 (#963627) 日記
      意味がないってことはさすがにないでしょう。

      ベンチマークだけはやたらと早い(が、実際に使ってみると今一つ…)というならともかく、
      今回は実際にターゲットとなる用途があって、その領域ではこれだけの演算能力があると
      いうことなのですから。
      計算能力の尺度がないと、どのくらいでシミュレーションが完了するのかの見積もできないし。
      親コメント
      • by Anonymous Coward on 2006年06月20日 16時12分 (#963848)
        > ベンチマークだけはやたらと早い(が、実際に使ってみると今一つ…)というならともかく、
        その辺はかなり微妙な問題を含んでいると認識しているのですが……。条件によってはFLOPS!=実演算速度なんですよこれ。

        GRAPEの基本アルゴリズムは力場の計算にO(N^2)のアルゴリズムを使用しています。
        天体計算の場合には同じアーキテクチャでもO(N log N)やO(N)のアルゴリズムを利用でき、GRAPEのトップ性能をほぼ引き出して計算を行うことが可能です。というわけで天体計算には、このFLOPS数はほぼそのまま計算速度と取って良い。

        それに対して、生体分子の場合には若干事情が異なります。
        ・天体より粒子数が多い。水ありだとN>50000とかよくある。
        ・天体と異なり密な系である。TreecodeでO(N log N)になりにくい。結果O(N^2)を使わざるを得ない。
        ・生体分子のシミュレーションに良く用いられる周期境界条件がGRAPE向きでない。GRAPEはEwaldをサポートしているが、トップスピードは出ない。条件を注意深く設定しないとクラスタに負ける(MDGRAPE-2の頃)。
        ・というか周期境界条件をまともな計算誤差で計算してベンチマークを取った例が無い(!)。
        周期境界条件に関しては特に大きな問題で、GRAPEではより高度な(オーダーレベルで速くなる)アルゴリズムが使えないor使いにくい、という問題があります。まぁこれは並列度を上げるにはある程度仕方がないんですが……。
        だからこのボードが「生体分子MDに」とか書かれると正直「?」という感じです。そもそも生体分子に限らず、FLOPS数だけを書いて分子動力学にも使える、とするのはだいぶミスリーディングです。
        #FLOPS数の定義は浮動小数演算の回数ですから、この数字はオーダーに関係なく高くなるわけで。

        で、思うのが、
        ・正直天体計算に特化しすぎている。生体分子にもう少し合わせたシステムを考えて欲しい。
        ・FLOPS表示で宣伝をするのは良いけど、実際の計算条件は制限が多いことを隠しているのは困る。怖くて手が出せない。
        GRAPEシリーズの研究者は良くやっていると思うし、素晴らしい技術であると思うんですが、分子動力学や生体分子固有の問題にもう少し目を向けて欲しいなぁ、と。
        もちろん、条件を限って使えばGRAPEは素晴らしいシステムだと思います。特に周期境界条件を考えなくて良い系には最適でしょう。

        #この世界で生きていけなくなりそうなのでAC
        #識者の方ツッコミお願いします
        親コメント
  • お兄ちゃんへ (スコア:2, おもしろおかしい)

    by Anonymous Coward on 2006年06月20日 10時00分 (#963649)
    つる(T)の世界からぺた(P)の世界へようこそ

    # それだけなのでAC
  • by parsley (5772) on 2006年06月20日 10時10分 (#963662) 日記
    2 PFLOPSを目指すGRAPE-DRスパコンプロジェクトが始動 [srad.jp]との関係は?
    • 半分ぐらいまで来たな~?
    • それは全然違うGRAPEだ!
    どっち?

    触る立場じゃないので、全然わからん。
    --
    Copyright (c) 2001-2014 Parsley, All rights reserved.
    • by Anonymous Coward on 2006年06月20日 12時37分 (#963756)
      MDGRAPE3 は GRAPE-6 ベースに改変を施して重力多体計算でなく分子動力学に使えるようにしたもの.
      GRAPE-DR は GRAPE-6 と設計思想を異にしていて,FPGA を使用することで様々な応用分野(上記2分野を含む)に使えるようにしたもの.
      たとえるならば,(GRAPE-6 から見て) MDGRAPE3 は弟,GRAPE-DR は息子・・という感じでしょうか.

      #どっちかの中の人だけどアカウント持ってないので AC
      親コメント
    • by Anonymous Coward on 2006年06月20日 19時22分 (#963920)
      【レポート】ペタコンピューティングの世界(1)
      http://journal.mycom.co.jp/news/2002/01/01/13.html
      【レポート】ペタコンピューティングの世界(2)
      http://journal.mycom.co.jp/news/2002/01/01/14.html
      親コメント
  • by Anonymous Coward on 2006年06月20日 11時54分 (#963732)
    CPU(=LINPACKが動くコンピュータ)とGPU(GRAPEのボード)を比較して何かうれしいのか?
  • by prankster (12979) on 2006年06月20日 9時30分 (#963620)
    これくらい高性能になると、真空中の単独分子(セルの境界条件をいじれば無限集合になるけど*))ではなく、水中の分子(H2O分子が複数共存)のシミュレーションができるのでしょうか?
    *)1セルに1分子で隣接セルはそのセル自身のコピーって話。MD知らないヒトにはわかりにくいかな。

    それとも、1セルに複数分子が入るとか、巨大分子の計算の方向に調整しているのかな?

    教えて!詳しいヒト。
    # クレクレ君ですまん。
    • by guchis (27687) on 2006年06月20日 10時49分 (#963685) 日記
      理研のページによれば、主な用途は蛋白質科学ですね。

      蛋白内部の水が重要なはたらきをしてる蛋白質(イオンポンプとか)では、内部の水分子まで含めたシミュレーションも見かけます。方法としてはQM/MMとかで。
      他にも蛋白質+低分子(薬)、蛋白質+脂質膜とか蛋白+蛋白のドッキングとかも既にやられていますね。
      溶液中の水分子まで、ってのもあったような気がしますが…、専門外なのでどの程度のものかはわかりません。

      今はかなりのものがシミュレーションできるようになってきてるようです。理論の時代ですね。

      親コメント
    • by maimi09 (20395) on 2006年06月20日 11時06分 (#963702) ホームページ 日記
      わたしには分子動力学シミュレーションのことは、よく知りませんので分かりませんけど。

      有楽町にビックカメラができたぐらい昔に、有楽町の某会場で理研のプレゼンやっていたときは・・・
      銀河の衝突とか惑星運動、水分子のクラスタやDNA分子の揺れている姿などをシミュレーションして見せてくれました。

      プレゼンしていた自称で専門分野はユニバースなA先生は「ペタマシンで宇宙誕生の謎に迫りたい」って語ってました。

      また、パンフにはFPGAが数個並んでいるPCIバスの基板とIBM共同開発のPowerPCの写真が掲載されていました。

      私的には「ザイリンクスなFPGAが数個並んでいるPCIバスの基板」は、少し刺激的に思えました。

      ちなみにMDGRAPE-xは、その気があれば出来上がった基板を購入してパソコンに取り付けることもできるかとおもいます。
      製品の概要は理研ベンチャー 高速計算機研究所 [peta.co.jp]にあります。
      --
      大槻昌弥(♀) http://www.ne.jp/asahi/pursuits/ootsuki/
      親コメント
      • Re:素朴な疑問 (スコア:3, おもしろおかしい)

        by gram (10641) on 2006年06月20日 11時58分 (#963734)
        >>分子動力学シミュレーション
        >>有楽町にビックカメラが

        ここだけ見て、客の動きを精密にシミュレーションするのかと空目しました。

        「お、関西人が団体で入ってきて値切り始めたぞ!」
        「うむ、店員が対応に追われているな。その分レジが手薄になっている」
        親コメント
  • by heath_yam (16773) on 2006年06月20日 9時43分 (#963630)
    やっぱりスーパーコンというと、ベンチ付きのこれなんですね(笑)
    --
    ヒースキット山口 heath yamaguchi
  • 今朝もriken落ちてた (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2006年06月20日 9時52分 (#963639)
    ftp.riken.jpのサーバにも予算をください
  • by Anonymous Coward on 2006年06月20日 10時50分 (#963687)
    実際に並列計算をしている側から言わせてもらうと、ピーク性能が
    いくら高かろうが、並列計算する時点で効率が頭打ちされるのが
    分かっているので全く意味が無い。
    重要なのはチップ1個の性能がどれだけ高いかということだ。

    ついでにいうと、簡単に利用できないマシンもあんまメリットが無い。
    EX:地球シミュレーター

    ヨーロッパのサイエンスグリッドみたいに、誰でも簡単に利用できる
    システムの方がよほど価値は高いと思う。

    #本マシンは専用機なのでオフトピっぽいな・・・
    • by Anonymous Coward on 2006年06月20日 11時08分 (#963703)
      GRAPEは離散シミュレーション専用機で、その分野に関しては世界一であることは間違いない。応用は天体力学から大規模分子シミュレーションまであるんだから、かなり広い。その専用機が効率よく並列化出来ることを示して実装するのはかなり難しい。もっと、評価されて良い日本の技術。

      一方で、Linpack系のベンチマークは古い数値計算専用であって、そっちの方が、「それで、いまさら何を計算しようと言うわけ?」という感じで心配です。そういう人達は「チップ1個の性能」っていうのが好きらしい。
      親コメント
    • by nq (16642) on 2006年06月20日 12時32分 (#963753) 日記
      「並列計算する時点で効率が頭打ち」だからピーク性能に意味がない、というのは理解できるけれど、どうしてそれが、「重要なのはチップ一個の性能がどれだけ高いか」に結びつくの?

       「だから、ノード間バンド幅が重要だ」、とか、「共有メモリーサイズとアクセス速度が重要だ」、とか、「I/O速度が重要だ」、とかにつながるのだったら分かるのですけれど。

      親コメント
      • by Anonymous Coward on 2006年06月20日 19時42分 (#963929)
        世の中には並列化しにくいコード(や、フォーミュレーション)
        というものもありまして。

        分野によってはしゃあないところもあります。

        無論、研究者自信のスタンスが、理論重視でコードの並列化などのプログラム技術が追い付いていないという現実もありますが、そういう糞難しいフォーミュレーションを考えて、とにもかくにもコードに載せる事の方がなによりも評価されるって言う分野もあります。

        実際、そもそも理論重視だとコードの効率を上げるのに血道をあげても、コード自体(理論自体)が使い捨てというのもあります。時間をかけて効率化を計るのが賢いのか否か?というのも見据えて、何を目的とした研究か?というのを正しく考えないと。まぁ、いろいろといます。コード屋よりの人もいれば、コード屋よりでない人もいる。パソコン好きが数値計算をすると計算機よりになるのは非常に理解できますが、計算機の人ではない。ってことを大前提に。(まぁ、計算機の人もいるでしょうけど)。

        MDのような、フォーミュレーションは簡単で、あとは基本的なアイデアと、コードの実装そのものに血道をあげることの出来る分野だけではないという事です。とにかく、ちょっとスタンスが違う人がなにか分かったように言いきると腹が立つのは分かりますが、そこはお互い相互理解を持って行きましょう。

        個人的には、専用計算機を使うような世界にいないので、そっちはさっぱりですが、汎用マシンという意味では、たとえば、SR11000よりは、SX-9 のようなベクトルマシンの方が楽にお仕事できるコードを書けます。やっぱ、1CPUの性能は重要だなーと。まぁ、要素内並列をちゃんと使い込んでいると、共有メモリ内の1ノードの性能というのが聞いてくるようになりますけど。どこが重要か?と問われれば、1CPU の性能と答えるのは実に正しいと思います。その次に、共有メモリ内通信の速度であり、分散メモリ間の速度でありと。まぁ、だいたいこんな感じなのは誰もが正しいと思うでしょう。

        鬼のようなノード数を使えたとしても、それが行かせるコードってのは(ひいては、フォーミュレーション・理論が)結構少ないと思うし。無論そういう分野も、そういうコードも、そういう研究もあるでしょう。

        ともかく、始めにCPUありきで、次がCPUとメモリの通信で、その次が、CPUとメモリの集合間との通信で、その次がさらにそれが大きなネットワーク作った際のインターリンク間の通信でというのはおおむね正しいんじゃないのかな─と。

        また、確かにインターリンクがノード内通信並に速ければまた、違う世界も見えてきそうですけどね。ようするにノード自体が、CPU 内のパイプライン的な存在になってくる。そうなると、コードってよりは、コンパイラの最適化ですね。ボトルネックになるのは。でも、それはそれで見方を変えて、それはデカイCPUだとも言えますし。

        ともかく、そこまでいっちゃ、どこまでの世界を見据えてのお話か?で話は変っちゃうわけなんだけど、現実問題としてともかく、まぁ、どこがボトルネックになりやすいのか?というのはコード依存なんで、人それぞれご経験があるんでしょうけど。それはそれ。

        ともかく、些細なことに目くじらを立てないように。・・・・っと細かい違いに目くじらを立てて、本質を議論するのがサイエンスの一つの形なので、言葉の使い方一つでけんかになるのは、ある意味健全ですが。それは議論となるバックボーンが明確で互いにきっちり議論しているから意味があるわけで。まぁ、こういうところでは優しくいきませう。
        親コメント
    • by Anonymous Coward on 2006年06月20日 11時04分 (#963699)
      いや、前半は参考になるが

      >ついでにいうと、簡単に利用できないマシンもあんまメリットが無い。
      >EX:地球シミュレーター
      >
      >ヨーロッパのサイエンスグリッドみたいに、誰でも簡単に利用できる
      >システムの方がよほど価値は高いと思う。

      これは完全に貴方の都合でしかないんでは?
      「簡単に利用できない」「利用者が限定されている」からって成果が出てないわけではない。
      親コメント
      • by Anonymous Coward on 2006年06月20日 13時42分 (#963795)
        >これは完全に貴方の都合でしかないんでは?
        >「簡単に利用できない」「利用者が限定されている」からって成果が出てないわけではない

        成果がゼロとは言ってませんよ。
        地球シミュレータによって実証された数値計算の可能性なども理解しています。

        要は比較の問題です。
        限られたユーザのみが利用できるが最高性能の高いNLS(NationalLeadingSupercomputer)と
        広く門戸を開放し多数のユーザーが利用できる代わりに性能はそこそこのスパコンとどちらが
        全体として利益が高いか、ということです。
        日本は前者、ヨーロッパは後者の方式で進んでるので、数年後には評価が出るんじゃないでしょうか。
        親コメント
        • by johan (27535) on 2006年06月20日 15時24分 (#963832)
          これはまあ、どちらが良いか難しいところですね。
          広く門戸を開放した場合、一利用者あたりが使える計算リソースが目減りするわけで。
          例えば、ジョブを投入してから実行開始まで一ヶ月待たされるけど計算自体は一時間で終わるようなスーパーコンピュータがあったとして、手元のそこそこ速いワークステーションを一ヶ月動かせば大体同じ計算ができるような場合、高価なスパコンは作り損てことになってしまいます。

          その辺も含めて数年後に評価が出るだろう、ということかも知れませんが。

          親コメント
          • by gigo (21150) on 2006年06月20日 22時01分 (#963996)

            これ、ESとかのマネージメントの事をいってるんじゃないか?

            伝え聞くところによると、リバモアなどでは、異分野のたくさんの人が手分けしてコードを作るにはどうしたらよいかとか、そうしてできた複雑なコードの結果が正しいかどうかどうやって検証するとかが次に面倒な問題になると言われていて、研究されているんだが、こちらでは予算の大きさゆえに研究機関の間のイニシアチブをめぐる綱引きのレイヤーで物事が議論されがちなのが心配だ。

            コラボレーションや検証をするのに、バカでかい計算機は必ずしも要らない(特殊なハードウエアに依存するのではなく、それなりにスケーラブルなソフトウエアが良いだろう)ので、もっと多くの人のアイデアを集める方向で行って欲しいと思う。

            親コメント
    • by Anonymous Coward on 2006年06月20日 12時39分 (#963757)
      まあ使い古された議論の蒸し返しだが、
      ・並列化のトレンドは、むしろチップ1個の性能を落としても組み込みの技術とかで消費電力と熱を減らす方向。プログラミングはどんどん難しくなるけど、そういうマシンで動くコードを書ける技術を学んだ方がいい。
      ・簡単に利用できないマシン云々はcapability machines, capacity machines で検索とかしてみるといいと思う。まあどっちも大切っていうのが業界の見解。汎用マシンでpeak performance 1TFLOPが出て、LINPACK 1TFLOPが出ても、誰もがそういう環境を使えるようになるようになるにはまだ長い道のりだろうね。
      親コメント
    • by phason (22006) <mail@molecularscience.jp> on 2006年06月20日 13時09分 (#963771) 日記
      でもGrape系の計算って並列処理が極度に効くから,これでいいんじゃない?
      と言うかそもそもそれほど並列化の効かない計算にこれを使おうと思っている人は
      いないんじゃないかと.
      親コメント
    • by Anonymous Coward on 2006年06月20日 12時08分 (#963742)
      Bule Geneが367Tflopsを131000個で出しているからプロセッサ(チップ)あたり2.8Gflops。MDGRAPE-3はチップ当たり200Gflops(300MHz動作)。この数字は理論ピーク値だけど専用計算機だから100%に近い処理効率を期待できる。

      さて、チップ1個の性能が高いのはどっち?

      親コメント
typodupeerror

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

読み込み中...