汎用 GPU を買うか ? Blue Gene を買うか ? 36
ストーリー by reo
共同利用目的なのかどうかとか、色々ね 部門より
共同利用目的なのかどうかとか、色々ね 部門より
Anonymous Sengoku 曰く、
Ando's Microprocessor Information の 2010 年 11 月 6 日号にて、「GPGPU (汎用 GPU) を買うか Blue Gene を買うか ?」という興味深い記事が掲載されている。
HPCwire の記事を元にした話題なのだが、NASA の NAS-LU というナビエ-ストークス方程式を解く並列ベンチマークを使用して、IBM Blue Gene、Nehalem と Opteron 等の汎用 CPU、そして汎用 GPU との性能比較をするというものである。
その結果、問題規模が最大規模のベンチマークを解くのに要する時間が、NVIDIA C2050 GPU を 256 台使用したシステムでは 230 秒程度かかり、8,192 コアの IBM Blue Gene/P システムでは 210 秒程度となり、かなり肉薄したということだ。ただ、GPU システムでは消費電力に難があること、さらに根本的問題として C2050 を 16 倍の 4096 台にしても、16,000 コアと 2 倍にした Blue Gene/P に負けるというスケーラビリティーの無さという問題があるようだ。
しかしながら、一週間後に発表される TOP500 においてトップを獲得することが確実な中国の天河スパコンにしても (/.J 記事)、昨年の IEEE のゴードン・ベル賞を受賞した長崎大学のスパコンにしても、GPU をうまく利用した構成になっており、調達の容易さを含めて GPU システムにはいろいろメリットがあるようだ。
がんばれTSUBAME2.0 (スコア:1)
今月より運用を開始したTSUBAME2.0 [titech.ac.jp]にもがんばってもらいたいな。「TSUBAME2の予算が3倍になればTop500も楽勝で世界一で・・・しかもGPU以外のスカラーCPU部が1PFは行ってた」 [twitter.com]なんて話もありますけど。
モデレータは基本役立たずなの気にしてないよ
Re:がんばれTSUBAME2.0 (スコア:2)
日本のスパコンってTOP500に入るためのチューニングをした上でのスコアなんでしょうか?
それとも本来の用途で使っているけど、ついでにTOP500にランキングしてみたという程度なんでしょうか?
Re:がんばれTSUBAME2.0 (スコア:1, 興味深い)
「ベンチマークはコンピュータの性能のほんの一面しか捉えないので、正確な能力を測定することは不可能です」と主張するのは勝手だし学問の世界ではむしろ誠実なのかもしれないけど、費用対効果を測定できないんじゃ金を出してもらえないよ。
日本には「まず形から入って、形だけで終われ」という格言があって、企業のコンプライアンスや個人情報保護や新卒採用の面接や成果主義人事などに広く応用されていることをお忘れなく。
Re:がんばれTSUBAME2.0 (スコア:1, 興味深い)
「ベンチマークはコンピュータの性能のほんの一面しか捉えないので」 ← ここまでは○
「正確な能力を測定することは不可能です」 ← ここが×、こんなこと言ってる学者は見たことない
仮にも学術畑の人間が評価も抜きに何かするとは思えない。
現実にも、多体問題を解くためのスパコンです(GRAPEだっけ?)、とか、地球をシミュレーションするためのスパコンです(地球シミュレータ)、しかるにこの問題で比較すると従来の○○に比べて云々、という話は聞いた覚えがあるし(面倒だから調べないけど)。
> 日本には「まず形から入って、形だけで終われ」という格言があって
ただの悪癖じゃん。第一どこにあるんだ [google.co.jp]そんな格言。
Re: (スコア:0)
「形から入って形に終わる」は耳にしたことがあります。
でもこれは、剣道や柔道のように礼の形から入り礼の形に終わるといった、礼儀作法を表したものであって
元ACが言ってるような成果主義的な意味合いでの使われ方は聞いたことがないですね。
Re: (スコア:0)
>「ベンチマークはコンピュータの性能のほんの一面しか捉えないので、正確な能力を測定することは不可能です」
考えてみれば、人間が作ったロジックの動作検証をするだけの話すらまともに出来ないのなら、
一体何にそれを使うのか?って思ったりもする。
自然なんてコンピューターに比べれば解らんものばかりの筈なんだけど。
普通に考えれば「正確な能力の測定」自体は可能だろ。
系が複雑化・大規模化しただけの話で「数え辛い」ってだけで。
問題は「条件などの違いにより個々を正確に比較するのが難しい」ってだけなのじゃ。
Re: (スコア:0)
コメ主のこと?
それとも蓮ほうのこと?
誰も1位になることとか事業仕分けの話はしてないのにどっから出てきたんだ。
誰かつぶやくまえに(オフトピ:-2) (スコア:0)
#これって何のクジラ構文でしたっけ?
帯域不足と消費電力 (スコア:1, 興味深い)
GPGPUだと、ノード間通信が帯域不足になるんで、スケールしないと聞いたことがある。
Re: (スコア:0)
Re: (スコア:0)
AchronixのFPGA (スコア:0)
picoPIPEというのが高速化を実現する一種の非同期ロジックのような工夫になっていて興味深いです
比較的シンプルなデータフロー処理をおこなう特定用途向け専用アクセラレータなんぞを作るにはちょうど良いです
#登録無しでダウンロード出来る資料には消費電力等のスペックが一切載っていないのはこの業界のお約束か....
GRAPE-DRは? (スコア:0)
あまりに高性能すぎるので国家機密になってるの?
Re:GRAPE-DRは? (スコア:2)
その機種は知らないけど、GRAPEは従来、多体問題とかに特化しすぎてベンチマークソフトが走らなかった筈。
Re: (スコア:0)
Re: (スコア:0)
http://blog.livedoor.jp/petaflops/archives/51439061.html
審議はかくにんしていません。
Re: (スコア:0)
牧野先生とか平木先生あたりでもダメってことだと、
日本ではHPCの基礎研究はできんちゅうことになってしまう気が。
まぁホントにそうなのかもしれないけど。
Re: (スコア:0)
Re: (スコア:0)
そしてGRAPE-DRは基礎研究ではなく天文学の研究をするための設備を獲得するのが目的のプロジェクトだよ。
だからこそ、使った金額に見合った処理能力のシステムが運用されていないとすれば、非常にマズいんですよ。
うまくいっている間は誰も文句を言わないし、安上がりに速いマシンが手に入るのなら褒められもするが、それは「勝てば官軍」だから。
Re: (スコア:0)
で、もっと汎用なソフトが動くようにしたのがGRAPE-DR。
#そして当初ぶち上げた規模のシステムは実際には達成されず。
Re: (スコア:0)
文部科学省科学技術振興調整費の事後評価では、当初の目標を達成したことになってるぜ。
あんたか、牧野の、どっちかがウソついてるんだ。
そして、あんたは達成していないと言ってるのだから、あんたは虚偽の報告書を書いて牧野が予算を不正に受給した可能性を示唆してるんだぞ。
証拠もないのに達成されなかたっとか言うな。
Re:GRAPE-DRは? (スコア:2, 参考になる)
http://scfdb.tokyo.jst.go.jp/pdf/20041080/2008/200410802008rr.pdf [jst.go.jp]
残念だったは,プロジェクトの目標として「ユーザーが得られる性能:2PFLOPS」(上記p5)となっていて倍精度の実効性能で2PFLOPSを期待していたら,結局設計としては単精度のピーク性能が2PFLOPSだったあたりとかですかね.いやまあ,目標のところには確かに倍精度とは書いてないし,ピーク性能を持ってユーザーが得られる性能としてもまあ間違いじゃないんでしょうからそれはいいんですが,残念だなあと.
よくわからんのですが,上記報告書で「製造上の問題で数ヶ月遅れて研究期間内には間に合わなかったけど,一年以内には2PFLOPS(1PFLOPS+1PFLOPS?)のシステムが作れるよ」と言う奴で,結局このシステムってどこに置かれてるんでしょう?20年度でぎりぎり間に合わなくて,21年度中にできあがるって事はどこかで動いているんですよね?
Re:GRAPE-DRは? (スコア:1, すばらしい洞察)
ボード800枚の製造(納品)が間に合わなかった、と読む。
全部納品されなくても論文には支障がないしね。
Re:GRAPE-DRは? (スコア:3, 参考になる)
1チップあたり1Tフロップス → 単精度0.38Tフロップス(チップ単体のテストベンチでは0.5Tらしいが、実際のボードではクロックを下げている)
1ボードあたり8チップ → 4チップ
1ホストPCあたり2ボード → 1ボード
1ノードあたり64ホスト@標準ラック4本 → 128ホスト@広い部屋いっぱいにマキーノ(メタルラックの2ch俗称)
1システムあたり2ノード → 1ノード
トータル2Pフロップス → 0.2Pフロップス未満
当初予定の1/10の性能しか得られてないのに、2Pフロップスを整備しますってプロジェクトでA評価。
Re:GRAPE-DRは? (スコア:1, 興味深い)
>文部科学省科学技術振興調整費の事後評価では、当初の目標を達成したことになってるぜ。
評価はそうなってますが、その成果報告書の内容はあくまでも「1PFLOPSのシステム(ネットワークで連結して2PFLOPS)を作る目処は立った。残念ながらぎりぎり間に合わなかったけど、もうすぐできる予定」、ですよね?それに対する評価として「まあ当初の目標はだいたい達した」というものがつけられているわけで。
確かにチップはできてますが、気になるのはその後「1PFLOPSのシステムが稼働」という話を聞かない点なんですよね。予定した規模のシステムってどこかで動いてましたっけ?(もしくは実証のため動かしましたっけ?)
探した範囲ではプレスリリースなり何なりは見つけられなかったのですが……
Re: (スコア:0)
あと誰がメンテするんだよ。運用の話とか最初からしてないし。
もしかしたらボードは未だに全部納入されていないかもしれないし、
納入されてても封も切らずに倉庫につまれてるかもしれないぜ。
Re: (スコア:0)
何というvaporware
Re: (スコア:0)
当初の目標通りのGRAPE-DRのチップはちゃんとできて、実際に期待された性能もほぼ出てる。
まぁ、いろんな理由でPFlopsクラスのでかいシステムを組むのをやめた。
たぶん、電気代とかじゃないのかな?
Re: (スコア:0)
なにしろ、チップの試作がテーマのプロジェクトではなく、計算機資源の「整備」のプロジェクトですぜ。
Re: (スコア:0)
プロジェクトの代表はマキーノではなくて、お茶の水平木さんだよ。
Re:GRAPE-DRは? (スコア:1, すばらしい洞察)
答えは簡単だ。 (スコア:0)
並列計算機の性能は対数比で比べるってことはわかるんだけど… (スコア:0)
>8,192 コアの IBM Blue Gene/P システムでは 210 秒程度となり、かなり肉薄したということだ。
(中略)
1個単位で考えると、256倍にして230秒まで縮められたGPUに対して
8192倍にしてやっと210秒まで縮められたBlue Geneというスケーラビリティのなさに感じちゃうんだけど…
>16 倍の 4096 台にしても、16,000 コアと 2 倍にした Blue Gene/P に負ける
4096台のGPUに対してはその2倍のBlue Geneでは太刀打ちできないみたいだし…
1個のときのスコアを見ないと何とも言えないけど、
少なくとも言えることはボクのお財布ではGPU1個か二個買うのが関の山ってことだね
お前いじめられやすいタイプやなぁ (スコア:0)
『あんた、カネ、かけなはれ!』
セリフ入るからな」
「えっ?」
「セリフ入るから。『やりなはれ~やりなはれ~!』ミラクルぅ~ファイトでぇ~」
「あんた、カネ、かけなはれ!かけなはれ!かけなはれ~~~ミラクルぅ~」