アカウント名:
パスワード:
実際のアプリケーション走らせてみた場合,どれくらい実用的な速度で動くのか,等々が1ユーザーとしては非常に気になる所ですね.開発環境等が揃ってないと,非常に使いにくいスパコンって感じになってしまいそうですよね.# 2MWくらいまでなら,なんとか導入出来るっていう事業所結構多いと思うんですがね...
ところで,液浸HPCというとCRAY-2を思い出しますが,あんな感じでメンテナンスしにくい筐体なのかな...
# SPARC64VIIIfxユーザーなので,AC
pezyにはキャッシュがなくスクラッチパッドでやるので、 SPARC64VIIIfxユーザーには発狂ものかもまあ、スクラッチパッドで十分なものだけを計算させるために買ったんでしょう
https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc [wikichip.org]https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc2 [wikichip.org]pezy-scのpeは2wayのインオンーダースーパースカラで、これが8wayのSMTになってゆpe二つが2kbのL1D$を共有していて、ここにはレジスタスピルとか局所変数とかそういうのを置き、計算対象となる大域データはpeごとに16kbあるローカルストレージに持ってくるpe同士やマネジメントのmipsとの通信はL2$やLLCを経由して(明示的にLSにコピーすることにより)行うコヒーレントキャッシュではない
よくできているが、間接参照には弱いと思われる同じスクラッチパッドマシンの太湖之光と違い、階層的な構造になっているのが面白い太湖之光の局所変数もスクラッチパッドに置くところは好きではない
16kbあるローカルストレージで8スレッド動かすってこと?
イエーススレッドあたり2kb、256ワードですダブルバッファリングすると、さらに減るちなみに命令L1も2kbしかないです
命令2kbといえば512命令、ソフトウェアパイプラインが不要でコードの小さなSMTはうまくツボってますスクラッチパッドもベクトルレジスタのように使い、L2D$で局所性も活用できるさすが国産
ローカルストレージがレジスタファイルでPEが一つのベクトルプロセッサみたいなものなのかな?ダブルバッファリングはなんでいるの?L2D$が遅い?
・計算と・計算結果の書き出し/次に計算するデータの読み込みをオーバーラップするので、ダブルバッファリングすることになります細かく同期する仕組みがあればバッファは小さく取れますが
PS3のCellとどっちが大変?
これだけの数プロセッサで並列性を出そうと思ったら、どうせキャッシュを当てにした書き方なんてできない。スパコン専用CPUならこれでいいのでは?スパコン以外にも使うXeonとかSPARCではそういうわけにもいかないでしょうけど。
> スパコン専用CPUならこれでいいのでは?
粗行列演算であるhpcgでは太湖之ヒカリなんて京の1/10以下、gpuに比べても1/3から1/4の効率になりますpezyのランクは出ていませんが、たぶんやらなかったでしょうね
京はノード内のランダムアクセスもインターコネクトも強力なのですが、pezyも太湖之光もそこは割り切って密行列に特化していると思います買うほうもトラックとスポーツカーくらいは違うと認識しているでしょう
それはその通りだけど、キャッシュと関係ある話?コメント付けるところを別の枝と間違えたのかな。
間接参照は1. pをメモりから読む2. *pをメモりから読むという動作ですが、1はローカルにせいぜい数クロックで読めるでしょう2はpの指すアドレスがどこかメインメモリにあったり遠いノードのローカルメモりにあったりするかもしれないので、非常に長いサイクルがかかる可能性があるということは2を大量に並列に実行して、あちこちからバラバラと読み出しデータが順不同にやってくるのが効率化になります「あちこちからバラバラ、レイテンシ不定で読む」というのは強力なキャッシュ+アウトオブオーダースーパースカラでないと、データフロー同期などの特殊な仕組みがなければ性能はでません静的なスケジューリングとは正反対ですからね
そんなどこから読むのか分からないような作りだと、物理CPUが数個、100スレッドぐらいまでなら性能出ても、1000スレッド、10000スレッドでは性能でないよ。そもそもこういうスパコンは共有メモリではないので、アドレス指定して遠くから読むという動作自体が想定にない。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
吾輩はリファレンスである。名前はまだ無い -- perlの中の人
実用アプリケーションではどんなもんなんでしょうかね? (スコア:0)
実際のアプリケーション走らせてみた場合,どれくらい実用的な速度で動くのか,等々が1ユーザーとしては非常に気になる所ですね.
開発環境等が揃ってないと,非常に使いにくいスパコンって感じになってしまいそうですよね.
# 2MWくらいまでなら,なんとか導入出来るっていう事業所結構多いと思うんですがね...
ところで,液浸HPCというとCRAY-2を思い出しますが,あんな感じでメンテナンスしにくい筐体なのかな...
# SPARC64VIIIfxユーザーなので,AC
Re:実用アプリケーションではどんなもんなんでしょうかね? (スコア:0)
pezyにはキャッシュがなくスクラッチパッドでやるので、 SPARC64VIIIfxユーザーには発狂ものかも
まあ、スクラッチパッドで十分なものだけを計算させるために買ったんでしょう
Re:実用アプリケーションではどんなもんなんでしょうかね? (スコア:3, 参考になる)
https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc [wikichip.org]
https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc2 [wikichip.org]
pezy-scのpeは2wayのインオンーダースーパースカラで、これが8wayのSMTになってゆ
pe二つが2kbのL1D$を共有していて、ここにはレジスタスピルとか局所変数とかそういうのを置き、計算対象となる大域データはpeごとに16kbあるローカルストレージに持ってくる
pe同士やマネジメントのmipsとの通信はL2$やLLCを経由して(明示的にLSにコピーすることにより)行う
コヒーレントキャッシュではない
よくできているが、間接参照には弱いと思われる
同じスクラッチパッドマシンの太湖之光と違い、階層的な構造になっているのが面白い
太湖之光の局所変数もスクラッチパッドに置くところは好きではない
Re: (スコア:0)
16kbあるローカルストレージで8スレッド動かすってこと?
Re: (スコア:0)
イエース
スレッドあたり2kb、256ワードです
ダブルバッファリングすると、さらに減る
ちなみに命令L1も2kbしかないです
Re: (スコア:0)
命令2kbといえば512命令、ソフトウェアパイプラインが不要でコードの小さなSMTはうまくツボってます
スクラッチパッドもベクトルレジスタのように使い、L2D$で局所性も活用できる
さすが国産
Re: (スコア:0)
ローカルストレージがレジスタファイルでPEが一つのベクトルプロセッサみたいなものなのかな?
ダブルバッファリングはなんでいるの?L2D$が遅い?
Re: (スコア:0)
・計算
と
・計算結果の書き出し/次に計算するデータの読み込み
をオーバーラップするので、ダブルバッファリングすることになります
細かく同期する仕組みがあればバッファは小さく取れますが
Re: (スコア:0)
PS3のCellとどっちが大変?
Re: (スコア:0)
これだけの数プロセッサで並列性を出そうと思ったら、どうせキャッシュを当てにした書き方なんてできない。
スパコン専用CPUならこれでいいのでは?
スパコン以外にも使うXeonとかSPARCではそういうわけにもいかないでしょうけど。
Re:実用アプリケーションではどんなもんなんでしょうかね? (スコア:1)
> スパコン専用CPUならこれでいいのでは?
粗行列演算であるhpcgでは太湖之ヒカリなんて京の1/10以下、gpuに比べても1/3から1/4の効率になります
pezyのランクは出ていませんが、たぶんやらなかったでしょうね
京はノード内のランダムアクセスもインターコネクトも強力なのですが、
pezyも太湖之光もそこは割り切って密行列に特化していると思います
買うほうもトラックとスポーツカーくらいは違うと認識しているでしょう
Re: (スコア:0)
それはその通りだけど、キャッシュと関係ある話?
コメント付けるところを別の枝と間違えたのかな。
Re: (スコア:0)
間接参照は
1. pをメモりから読む
2. *pをメモりから読む
という動作ですが、1はローカルにせいぜい数クロックで読めるでしょう
2はpの指すアドレスがどこかメインメモリにあったり遠いノードのローカルメモりにあったりするかもしれないので、非常に長いサイクルがかかる可能性がある
ということは2を大量に並列に実行して、あちこちからバラバラと読み出しデータが順不同にやってくるのが効率化になります
「あちこちからバラバラ、レイテンシ不定で読む」というのは強力なキャッシュ+アウトオブオーダースーパースカラでないと、データフロー同期などの特殊な仕組みがなければ性能はでません
静的なスケジューリングとは正反対ですからね
Re: (スコア:0)
そんなどこから読むのか分からないような作りだと、物理CPUが数個、100スレッドぐらいまでなら性能出ても、1000スレッド、10000スレッドでは性能でないよ。
そもそもこういうスパコンは共有メモリではないので、アドレス指定して遠くから読むという動作自体が想定にない。