アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ソースを見ろ -- ある4桁UID
んだかねぇ。 (スコア:0)
そんなもの作って何になる?
分散処理するのとどっちが効率いい? とまぁ、PS3の方なんかを見てると思うわけで。
海の中に作れば水冷に困らなさそ。
Re:んだかねぇ。 (スコア:2, 参考になる)
って世の中で言っているものは、基本的にはほぼ全て並列・分散処理です。
(並列と分散のニュアンスの違いはとりあえず棚あげておいて)
ぶっちゃけ、地球シミュレーターだって、NEC の SX-6 を複数台並列処理させるだけだし、BlueGeneだって、IBM の POWER 5 を並列処理させているだけ。
だったら、PS3 の並列でもいいじゃん?というのはごもっともだけど、PS3 を10万台繋いで並列できるシステムを構築したら、スパコンを作るのと同じ値段がかかるという事です。今のスパコンは、(ものにも依るけど)そのくらい並列してます。
無論、POWER と
Re:んだかねぇ。 (スコア:-1, 荒らし)
上記コメントの価格に関する話は、ウソ。
そもそもベクタープロセッサはメモリ系を大量におごることで速度を確保するアーキテクチャだし CPU価格もPS3やPCのGFlops単価に比べ圧倒的に高い。
さらにスパコンの価格では開発費が占める割合は大きい。理由は単純で、数が出ないから。
民生用に大量に作るCPUのおこぼれを使うなら、ESに必要だった開発費用は不要。(PS3買う人が負担してくれている)
実際にESの値段を考えて見ると、
ESは国予算として約400億円でおよそ40TFlopsだから、1GFlopsが100万円の計算。
もちろんCPU以外にネットワークも必要だけど、大きくてもシステム全体の1/3程度の価格と見られる。
この結果、CPU+メモリの価格は1GFlopsあたり60-70万円という計算になる。
ここに、たとえばPC代表としてCore2アーキのCPUのピーク性能を代入してみる
いまのcore2の性能は、3GHzで24GFlops。
ESの比率を使うと、このCPUは1000万円相当以上の価値を持つと言う事がわかる。
それがたったの十数万円台で買えるということを考えてほしい。 (メモリもあるけど、すでに2桁ぐらい違っているから焼け石に水)
PS3ならもっと安いよ。
# というか、如何にESが高いのかという事。
# じゃ、NECがぼろもうけしたのか?
# ひとごととはいえ、そんな事言ったらさすがにかわいそうだから、AC
Re:んだかねぇ。 (スコア:1, 参考になる)
>いまのcore2の性能は、3GHzで24GFlops。
>ESの比率を使うと、このCPUは1000万円相当以上の価値を持つと言う事がわかる。
>それがたったの十数万円台で買えるということを考えてほしい。(メモリもあるけど、すでに2桁ぐらい
>違っているから焼け石に水)
>PS3ならもっと安いよ。
こういう短絡的な計算で総合性能を叩きだせるようなものだったら、誰も専門にして
研究したり開発したりしないっす。
上で誰かも書いていたが、それぞれシミュレーション種別の特性により、分散化し易い
処理とし難い処理がある。ESが導入された気象や大気・海洋などの処理において、汎用
プロセッサを積み上げただけの計算機が同じような処理性能を発揮できるのかと言えば
ナンセンス。
現時点、IBMのBGの処理実行性能が35%程度には上がってきたから、気象系の処理において
もESの実行性能に近づいているのは事実だが、実態はまだ大きな差がある。
その端的な例として、気象庁が導入したPowerを使用したCOSMETSの性能を見れば明らか。
ESのように超長期(一般の気象で長期は6ヶ月という点を留意)の予測を行う場合、その
処理すべきデータの大きさとメモリの食い方を考えれば納得せざるを得ない。
単に自分の身の回りのしょぼい世界で比較すると、間違った結論しか得られないでしょ。
ということで、汎用京速計算機でも、汎用性の追及と速度のバランスを考えてベクトル機と
汎用プロセッサによる並列機のバランスを取り、処理すべき計算の特性に合わせてソフト的
に、さらにネットワーク的にも最適な処理を取ろうというのが読み取れる。
理研さんのGRAPE的なバランスなんかも考えて、きっとペタでも良い結果を出して、日本の計算
機の歴史を塗り替え、産業的にも役に立つような形を希望します。
Re:んだかねぇ。 (スコア:1)
これって、単精度浮動小数点演算のピーク速度じゃ?
倍精度浮動小数点演算の実効速度と比べないと意味がない。
測ったことはないけど、良くて 2GFlops 程度じゃない?
2GFlops の PC を 20000台組み合わせても、通信がネックになって
40TFlops なんて出せない。40000台にしても、
アムダールの法則によって、1台辺り 1GFlops になるだけで、
総合性能なんて上がらない。
専用の M/B やネットワークを開発するなら、総合性能を上げられるけど、
そうすると当然高くなるので、前提が崩れる。
ちなみに、cell でクラスタ組んだら、2GFlops は出たらしい。
思ったより高速。
ES は 64GFlops・メモリ 16GB の計算ノードを 12GB/s (not bps) 単段クロス
バーでで接続してる。
2GFlops・メモリ 256MB・1000BASE の PS3 だと、
(並列化率低い分野は)何十万台組み合わせようが勝てない。
さらに、それだけの家庭に 1Gbps の回線引いたら一体何百億円かかる事やら。
TomOne
Re:んだかねぇ。 (スコア:1)
計算機を働かせるのはいいのですが、計算結果が多い場合ディスクの速度が出ないようでは、
高速に計算できてもそちらに足が引っ張られて性能が出ないような気がするんですが。
いい解決策ってあるんですかねえ。
Re:んだかねぇ。 (スコア:0)
CORE2は本当に2コアで倍精度24GFlops。実測でも出る。もちろんピークの100%は出ないにせよ1ノードなら90%以上出ることは確認済み。
計ったこともないのにデタラメ書かないで。
Top500のLINPACK性能が倍精度演算の結果だって知っているなら、こんなことは言わないよね。
TOP500リストみればわかるとおり、11位に入っているのがWoodcrest、この計測でも24GFlopsの
83%ぐらい、16GFlopsは出ている。
DELLのPowerEdgeで3GHzのWoodcrest
proc#: 5
Re:んだかねぇ。 (スコア:1)
ESが得意とするメモリキャッシュが効かない大規模計算だと、
メモリバンド幅やネットワークバンド幅が重要になってきます。
Woodcrest のメモリバンド幅は 10GB/s の様なので、
10GFlops が良い所でしょう。
さらにパソコンレベルが使えるネットワークなんて、
GbE か、せいぜいその 10倍止まり。
クラスタリングした時の性能は厳しくなるでしょう。
LINPACK はクラスタに有利なベンチマークです。
クラスタがベクトルに勝てるというなら、ベクトルに有利な
気象計算とか流体計算でベンチマークや実効性能を測らないと
いけません。
そう言う計算だとクラスタでは実行効率は 10% 以下に落ちてしまいます。
とすると、24GFlops の10% で 2.4GFlops。
そしてクラスタ数を上げれば上げるだけその効率は落ちていきます。
TomOne
Re:んだかねぇ。 (スコア:1)
> 10GFlops が良い所でしょう。
ごめん、間違えました。
10GB/s なので、1.25GFlops 程度じゃないかと。
と思って調べている内に、姫野ベンチの結果を見つけました。
Xeon 5150(Woodcrest) 2.66GHz で 1.7Gflops しか出ていません。
2GFlops は事実誤認どころか、近い数字でした。
TomOne
Re:んだかねぇ。 (スコア:0)
「荒し」にモデされている (#1134107 [srad.jp])を読んでみて。
これが「荒し」になるということが、今の日本のHPCの問題なんだから。
ベクタプロセッサは良くも悪くもメモリバンド幅が高いことで、
この結果として値段がむちゃくちゃ高いこと。
アプリケーションで如何にメモリバンド幅(さらにネットワークバンド幅)を
削減し演算器の性能を引き出すかが、現在の最大の課題なのに、
ベクタプロセッサが良いと主張することは、
この努力を行わないって言うことと同じことなんだ。
姫野ベンチは、メモリバンド幅ベンチマークとしては有効だけど、
最近では、演算性能を測るもの