アカウント名:
パスワード:
分散処理(グリッドコンピューティング)はアルゴリズムが単純であればあるほど効果を発揮しますが、 アルゴリズムが複雑であればあるほど効果を発揮できない、という命題もまた真であることが多いです。 理研のような研究機関の場合、当然分散がふさわしいものも多いとは思いますが、 単体の処理性能が高いマシンを使用できることが(他の研究機関と比べて)アドバンテージになる状況もあるのではないでしょうか。
私は非常に期待しています。
ちょっと知恵のある層は、核実験がやりづらい時代の核抑止力が計算力によって維持されている部分もある、ってことぐらいは想像がつくと思いますが。
BlueGeneだって、IBM の POWER 5 を並列処理させているだけ。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家
んだかねぇ。 (スコア:0)
そんなもの作って何になる?
分散処理するのとどっちが効率いい? とまぁ、PS3の方なんかを見てると思うわけで。
海の中に作れば水冷に困らなさそ。
PS3とはちょっと方向性が違いますよ (スコア:4, 興味深い)
分散処理(グリッドコンピューティング)はアルゴリズムが単純であればあるほど効果を発揮しますが、 アルゴリズムが複雑であればあるほど効果を発揮できない、という命題もまた真であることが多いです。 理研のような研究機関の場合、当然分散がふさわしいものも多いとは思いますが、 単体の処理性能が高いマシンを使用できることが(他の研究機関と比べて)アドバンテージになる状況もあるのではないでしょうか。
私は非常に期待しています。
All your base are belong to us
Re:んだかねぇ。 (スコア:3, 興味深い)
通信量が少なければ少ない程たくさんのコンピュータに分散しやすくなるんだけど、通信量をあんまり減らせないような計算もあるわけ。で、一箇所にまとめて置くくらいならなんとかトラフィックを捌けるとかいう処理だとこういうのが有効になるのでつ。もっとトラフィックが多くなるような計算もあって、そういうのだと分散処理自体できなかったりするので一台で計算しなきゃならなかったり。
Re:んだかねぇ。 (スコア:3, 興味深い)
#これとアンサンブル平均の話(さまざまな初期条件で走らせてみる)をごっちゃにしている人の多いことorz
ES関係のプログラマがこの「となりのグリッドの計算結果を如何に効率よく隣四件両隣に配分するか」って問題を解いているかって知っている限り、「PS3で分散処理すればぁ?」ってむなしく聞こえることしきりw
Re:んだかねぇ。 (スコア:1)
# 人間の脳の場合はマルチキャストがすごいのかもしれないけど
Re:んだかねぇ。 (スコア:3, 参考になる)
いや、ですから、いま問題にしているような例では計算の局所性が低いんで、通信コストが非常に
重要になるのですよ。
小さな計算をものすごい数の初期条件で何回も計算して最適解を求めるようなものは分散処理に
向いていますが、膨大な数の短時間で終わる小さな計算結果を統合して次の計算のパラメータを
算出、それを配りなおして再計算、というループを延々と繰り返すタイプの計算では分散処理は
無理です。いや、正確にいえば無理ではないんですがすごく高速な通信路で結ばないといけないんで
今の普通のネットワークを介した分散処理は無理。
だからこういった計算をやるスパコンの実性能はかなりの部分がCPU間の通信をどう設計/実装
するかに依存しているわけで。
具体的には、例えば1ループが1時間かかる計算を初期条件を変えて1000万回計算するような処理は
1000万台のCPUがあればほぼ1/1000万分の1の時間で終わります。一方、1ループが1/100秒で
終わるけれどもメッシュが1000万あって、次のループは各メッシュ計算結果を組み合わせたものを
初期状態にして計算、これを36万回ループを回すような場合、トータルの計算量は先に述べた例と
同じになるものの、台数を増やしても通信速度が遅ければ(1ループの結果から次の初期条件を算出
するまでの時間が凄まじくかかるため)大して計算速度は向上しません。
Re:んだかねぇ。 (スコア:0)
#それだけなのでAC
Re:んだかねぇ。 (スコア:0)
ひとつのダイの中>ひとつのパッケージの中>ひとつのボードの中・・・
と境界を跨ぐたびに転送速度は一桁以上遅くなります。
ある計算結果を待たないと次の処理に進めない場合、
データの伝達速度が計算速度に大きく影響します。
いかに高速にリンクさせるか、が効いてくるわけです。
Re:んだかねぇ。 (スコア:0)
Re:んだかねぇ。 (スコア:1)
隣四件両隣ならクロスバーなんて使わずにメッシュ使えば良かったんじゃないのかな。
Re:んだかねぇ。 (スコア:0)
> か」って問題を解いているかって知っている限り、「PS3で分散処理すればぁ?」ってむなしく聞こえることしきりw
今の技術ではその程度の分散しかできないってことなのね。
光回線もその程度か
Re:んだかねぇ。 (スコア:0)
ない人も多い気がする. 大艦巨砲のベクトル型よりスカラー型の方がコストパフォーマンスが良いと言っても,
利用者から見たソフト開発の手間・工数も考えれば単純には判断できない.
今まで出来なかった計算を実現するためのツールがスパコンなんだから,廉価でもやりたいことが出来ない
スカラー型より,いくら高価でもすぐにやりたい計算を出来るベクトル型を必要とする利用者もいる.
例えばスパコン使って気象予報するのに気象庁がHPCの専門家をいっぱい雇って,ばりばりスカラー型向けの
ソフト開発するなんて考えられないでしょ.(だからベクトル型はまだまだ完全には死なない)
Re:んだかねぇ。 (スコア:1, 参考になる)
計算ノードを一箇所に固めて設置したスパコンより柔軟性ではかなり劣るだろうけど、その分大量のCPUリソースを使えるというような。
Re:んだかねぇ。 (スコア:2, 興味深い)
現在の科学技術では信号伝達速度は光の速度を超えられないので
各ノードが物理的に分散していると通信遅延が大きすぎて使い物にならないと思われ。
ところで埼玉県和光市にある理研から神戸にある計算機までってそれなりに距離があるわけだが
計算結果を受け取るための通信に必要なパフォーマンスを確保するための遅延量とかはちゃんと見積もったんだろうか。
「SINETに10Gbpsでつなげばぜんぶおっけーいえーいべいべー」とか思考停止していたりしないよな?
Re:んだかねぇ。 (スコア:2, 参考になる)
いや……計算は重くとも計算結果は軽いんで。
#大抵は9600bpsでも余裕。
Re:んだかねぇ。 (スコア:2, おもしろおかしい)
Re:んだかねぇ。 (スコア:1)
○○山雪庇崩壊を起因とする全層雪崩のシミュレーション動画とか
だと結構でっかそう。
Re:んだかねぇ。 (スコア:0)
Re:んだかねぇ。 (スコア:0)
Re:んだかねぇ。 (スコア:0)
それは問題次第。
領域分割のFEM/BEMあたりだったら、広域分散なんて、遅延がでかすぎて研究の
研究ぐらいのレベルだし、スループットもあればあるだけうれしい。
Re:んだかねぇ。 (スコア:2, 興味深い)
Re:んだかねぇ。 (スコア:0)
Re:んだかねぇ。 (スコア:2, すばらしい洞察)
物事には適材適所があります。
PS3でネットワーク分散処理するよりも一塊に集めて
ブン回したほうがいい計算分野もあるんですよ。
Re:んだかねぇ。 (スコア:1, おもしろおかしい)
王様「クヤシネ 腹タツネ 国家ノ威信丸ツブレダヨ」
王様「ソンナワケデ 勝ツタメニ コンピュータヲ集メテクダサイ」
(240Gfp)
Ω ∠ 王子ダッシュ!
(ニl|`:´) ,.@‐--、
) |ニ / @
> ヽ @ /PS3
` ´ ` ´
Re:んだかねぇ。 (スコア:2, 興味深い)
地球シミュレーターが世界一になった時、アメリカはものすごい不快感を感じたらしいですよ。
国民も世界一のスパコンを所有している意味というのを理解してるからだそうですが。
Re:んだかねぇ。 (スコア:2, おもしろおかしい)
> 国民も世界一のスパコンを所有している意味というのを理解してるからだそうですが。
多分、アメリカの事だから「世界一」までしか理解してな(ry
# アメリカ、とりかく一番が好きだからなぁ・・・
# 横やりなのでAC
Re:んだかねぇ。 (スコア:2, 興味深い)
Re:んだかねぇ。 (スコア:2, おもしろおかしい)
Re:んだかねぇ。 (スコア:0)
Re:んだかねぇ。 (スコア:0)
Re:んだかねぇ。 (スコア:1)
(kill -INT じゃねーぞ)
と思ったけど、cipher breakは分散クラスタでも可能?
Re:んだかねぇ。 (スコア:2)
総当たりなら分散処理可能。
distributed.netみたいな感じね。
通信処理を非常に頻繁にやら無くてはならないアルゴリズムがあるとすれば、
分散をしていると通信あたりのレイテンシが馬鹿にならなくなってくると思う。
核爆発、融合シミュレーションの場合、空間を幾つかのセルに区切って実験すると思うが、
個々のセルが周りのセルと密な通信をしなくてはならないと思うので、
分散していたらレイテンシが大きくて効率が悪い。
Re:んだかねぇ。 (スコア:1)
結局のところノード間の帯域とレイテンシではどちらの方が重要なのでしょうか?
Re:んだかねぇ。 (スコア:0, すばらしい洞察)
つまり日本では知恵のある層がいやがる訳ですね?
#誰だよ、ここまでプロパガンダ放置した馬鹿役人
Re:んだかねぇ。 (スコア:0)
以下略
Re:んだかねぇ。 (スコア:2, 参考になる)
って世の中で言っているものは、基本的にはほぼ全て並列・分散処理です。
(並列と分散のニュアンスの違いはとりあえず棚あげておいて)
ぶっちゃけ、地球シミュレーターだって、NEC の SX-6 を複数台並列処理させるだけだし、BlueGeneだって、IBM の POWER 5 を並列処理させているだけ。
だったら、PS3 の並列でもいいじゃん?というのはごもっともだけど、PS3 を10万台繋いで並列できるシステムを構築したら、スパコンを作るのと同じ値段がかかるという事です。今のスパコンは、(ものにも依るけど)そのくらい並列してます。
無論、POWER と SX 以外の石を使った汎用スパコンって意味でも cellをつかったスパコンってのは今後の一つの形だとは思うが、たぶん PS3 ではない。だって、インターリンクは Etheだし。とにかく、結局、同じパフォーマンスを出そうとしたら、PS3 の超並列でも高くなるのは事実かと。
で、これらスパコンが無駄か否か?は計算屋が何をやるのか?によると思うけど、でもスパコン業界という意味では、アジアのシェアが延びて、日本を圧迫しているのが、業界では危機感がある。圧迫というか、敗北街道まっしぐら。あらゆる意味で、技術大国日本は転落中です。無論そこ力は、どこぞのパソコンを寄せ集めたようなスパコンをアセンブリして、並列計算機を作るだけで、スパコンだ!世界No**だ、シェア***だと恥ずかしげもなく言う連中とは、日本の技術力は段違いなんだけど、やっぱ形式的にもそういう状況が続くとたぶんダメになる。
商売としてどうなん?といえばアレなのは確かだけど、最近、日本の得意分野、世界に日本あり!とのし上がった分野でどんどん日本が敗北している現状に危機感があるのはたしかで、スパコンは高いといっても、道路工事と比べたらたいした値段ではない。国家のレベルからしたら微々たるもの。むしろ、こういうところにこそ惜しみなくお金を使うべきだと思う。
科学技術・テクノロジーで生きている(はず)の日本に、たいしたスパコンがないほうが国策として問題があると感じます。地球シミュレーターで日本に敗北したアメリカが「コンピュートニクショック」というキーワードでモリモリエネルギーを投入したのもそうだけど、国策として計算機というのは非常に大事なわけです。
特に、計算機科学というのは今最もホットな分野で、応用的にも必要とされる分野で、企業もどんどん利用している。
聞いた話だと、この第一期の京速コンピューターで成功したら、継続的にこれの後継機種を投入して、つねに世界のスパコン業界をリードするつもりらしいとかなんとか。でも、以前、密かに、ベクトル+スカラー複合機のような話を小耳に挟んだのにはなんか落胆したけどね。最終的にどこに不時着するのかは知らないが、たぶん富士通は乗ってこない。NEC+日立連合が本命だと思う。本当のところ、どこに不時着するかはわからん。あまり揉めるとろくなことにはならんだろうな・・・
Re:んだかねぇ。 (スコア:1)
>だって、IBM の POWER 5 を並列処理させているだけ。
>無論、POWER と SX 以外の石を使った汎用スパコンって意味でも cellをつかったスパコンってのは
>今後の一つの形だとは思うが、たぶん PS3 ではない。
>だって、インターリンクは Etheだし。とにかく、結局、同じパフォーマンスを出そうとしたら、PS3
> の超並列でも高くなるのは事実かと。
なんか大きな誤解がありますね。
並列性だけの話ではなく、汎用プロセッサとSXなどのベクトルの持つメモリバンド幅の差も
考えてくださいな。
単に横並びに並列を上げられるかといえばナンセンス。
インターコネクトの速度を上げたところで、汎用プロセッサの一番問題なメモリからのデータ
供給が処理に追いつかない点は改善されません。レイテンシだけではなく、処理演算器への
データ供給が1列でゆっくり処理される(ベクトルと比較して)点から目を逸らしていては・・・
単純に並列度を上げるだけではなく、処理するためのデータ供給と、そのデータの完全性を
保障する処理へのコストが、大変高くつくためにESもBGも高価になっているんですよ。
その点を無視して、PS3がどうのなんて意味がありません。
Re:んだかねぇ。 (スコア:0)
Re:んだかねぇ。 (スコア:1)
Re:んだかねぇ。 (スコア:1)
書いた後で気になって調べたら、PowerPC 440だった……
750ってG3じゃないか……
Re:んだかねぇ。 (スコア:1, 参考になる)
>いまのcore2の性能は、3GHzで24GFlops。
>ESの比率を使うと、このCPUは1000万円相当以上の価値を持つと言う事がわかる。
>それがたったの十数万円台で買えるということを考えてほしい。(メモリもあるけど、すでに2桁ぐらい
>違っているから焼け石に水)
>PS3ならもっと安いよ。
こういう短絡的な計算で総合性能を叩きだせるようなものだったら、誰も専門にして
研究したり開発したりしないっす。
上で誰かも書いていたが、それぞれシミュレーション種別の特性により、分散化し易い
処理とし難い処理がある。ESが導入された気象や大気・海洋などの処理において、汎用
プロセッサを積み上げただけの計算機が同じような処理性能を発揮できるのかと言えば
ナンセンス。
現時点、IBMのBGの処理実行性能が35%程度には上がってきたから、気象系の処理において
もESの実行性能に近づいているのは事実だが、実態はまだ大きな差がある。
その端的な例として、気象庁が導入したPowerを使用したCOSMETSの性能を見れば明らか。
ESのように超長期(一般の気象で長期は6ヶ月という点を留意)の予測を行う場合、その
処理すべきデータの大きさとメモリの食い方を考えれば納得せざるを得ない。
単に自分の身の回りのしょぼい世界で比較すると、間違った結論しか得られないでしょ。
ということで、汎用京速計算機でも、汎用性の追及と速度のバランスを考えてベクトル機と
汎用プロセッサによる並列機のバランスを取り、処理すべき計算の特性に合わせてソフト的
に、さらにネットワーク的にも最適な処理を取ろうというのが読み取れる。
理研さんのGRAPE的なバランスなんかも考えて、きっとペタでも良い結果を出して、日本の計算
機の歴史を塗り替え、産業的にも役に立つような形を希望します。
Re:んだかねぇ。 (スコア:1)
これって、単精度浮動小数点演算のピーク速度じゃ?
倍精度浮動小数点演算の実効速度と比べないと意味がない。
測ったことはないけど、良くて 2GFlops 程度じゃない?
2GFlops の PC を 20000台組み合わせても、通信がネックになって
40TFlops なんて出せない。40000台にしても、
アムダールの法則によって、1台辺り 1GFlops になるだけで、
総合性能なんて上がらない。
専用の M/B やネットワークを開発するなら、総合性能を上げられるけど、
そうすると当然高くなるので、前提が崩れる。
ちなみに、cell でクラスタ組んだら、2GFlops は出たらしい。
思ったより高速。
ES は 64GFlops・メモリ 16GB の計算ノードを 12GB/s (not bps) 単段クロス
バーでで接続してる。
2GFlops・メモリ 256MB・1000BASE の PS3 だと、
(並列化率低い分野は)何十万台組み合わせようが勝てない。
さらに、それだけの家庭に 1Gbps の回線引いたら一体何百億円かかる事やら。
TomOne
Re:んだかねぇ。 (スコア:1)
計算機を働かせるのはいいのですが、計算結果が多い場合ディスクの速度が出ないようでは、
高速に計算できてもそちらに足が引っ張られて性能が出ないような気がするんですが。
いい解決策ってあるんですかねえ。
Re:んだかねぇ。 (スコア:0)
CORE2は本当に2コアで倍精度24GFlops。実測でも出る。もちろんピークの100%は出ないにせよ1ノードなら90%以上出ることは確認済み。
計ったこともないのにデタラメ書かないで。
Top500のLINPACK性能が倍精度演算の結果だって知っているなら、こんなことは言わないよね。
TOP500リストみればわかるとおり、11位に入っているのがWoodcrest、この計測でも24GFlopsの
83%ぐらい、16GFlopsは出ている。
DELLのPowerEdgeで3GHzのWoodcrest
proc#: 5
Re:んだかねぇ。 (スコア:1)
ESが得意とするメモリキャッシュが効かない大規模計算だと、
メモリバンド幅やネットワークバンド幅が重要になってきます。
Woodcrest のメモリバンド幅は 10GB/s の様なので、
10GFlops が良い所でしょう。
さらにパソコンレベルが使えるネットワークなんて、
GbE か、せいぜいその 10倍止まり。
クラスタリングした時の性能は厳しくなるでしょう。
LINPACK はクラスタに有利なベンチマークです。
クラスタがベクトルに勝てるというなら、ベクトルに有利な
気象計算とか流体計算でベンチマークや実効性能を測らないと
いけません。
そう言う計算だとクラスタでは実行効率は 10% 以下に落ちてしまいます。
とすると、24GFlops の10% で 2.4GFlops。
そしてクラスタ数を上げれば上げるだけその効率は落ちていきます。
TomOne
Re:んだかねぇ。 (スコア:1)
> 10GFlops が良い所でしょう。
ごめん、間違えました。
10GB/s なので、1.25GFlops 程度じゃないかと。
と思って調べている内に、姫野ベンチの結果を見つけました。
Xeon 5150(Woodcrest) 2.66GHz で 1.7Gflops しか出ていません。
2GFlops は事実誤認どころか、近い数字でした。
TomOne
Re:んだかねぇ。 (スコア:0)
「荒し」にモデされている (#1134107 [srad.jp])を読んでみて。
これが「荒し」になるということが、今の日本のHPCの問題なんだから。
ベクタプロセッサは良くも悪くもメモリバンド幅が高いことで、
この結果として値段がむちゃくちゃ高いこと。
アプリケーションで如何にメモリバンド幅(さらにネットワークバンド幅)を
削減し演算器の性能を引き出すかが、現在の最大の課題なのに、
ベクタプロセッサが良いと主張することは、
この努力を行わないって言うことと同じことなんだ。
姫野ベンチは、メモリバンド幅ベンチマークとしては有効だけど、
最近では、演算性能を測るもの
Re:んだかねぇ。 (スコア:1)
そんなお遊びが、まともに使い物になるとでも?
Re:んだかねぇ。 (スコア:1)
分散処理させた場合、ノード間の通信速度が律速となることはざらにあると思いますが。
Re:んだかねぇ。 (スコア:1)
足元見られたら終わり。
ある程度のものを実際に作れるというレベルを誇示しておかなければ
場合によっては売ってすらくれませんね。安全保障にかかわるもの等は特に。
[Q][W][E][R][T][Y]