アカウント名:
パスワード:
実際のアプリケーション走らせてみた場合,どれくらい実用的な速度で動くのか,等々が1ユーザーとしては非常に気になる所ですね.開発環境等が揃ってないと,非常に使いにくいスパコンって感じになってしまいそうですよね.# 2MWくらいまでなら,なんとか導入出来るっていう事業所結構多いと思うんですがね...
ところで,液浸HPCというとCRAY-2を思い出しますが,あんな感じでメンテナンスしにくい筐体なのかな...
# SPARC64VIIIfxユーザーなので,AC
pezyにはキャッシュがなくスクラッチパッドでやるので、 SPARC64VIIIfxユーザーには発狂ものかもまあ、スクラッチパッドで十分なものだけを計算させるために買ったんでしょう
これだけの数プロセッサで並列性を出そうと思ったら、どうせキャッシュを当てにした書き方なんてできない。スパコン専用CPUならこれでいいのでは?スパコン以外にも使うXeonとかSPARCではそういうわけにもいかないでしょうけど。
> スパコン専用CPUならこれでいいのでは?
粗行列演算であるhpcgでは太湖之ヒカリなんて京の1/10以下、gpuに比べても1/3から1/4の効率になりますpezyのランクは出ていませんが、たぶんやらなかったでしょうね
京はノード内のランダムアクセスもインターコネクトも強力なのですが、pezyも太湖之光もそこは割り切って密行列に特化していると思います買うほうもトラックとスポーツカーくらいは違うと認識しているでしょう
それはその通りだけど、キャッシュと関係ある話?コメント付けるところを別の枝と間違えたのかな。
間接参照は1. pをメモりから読む2. *pをメモりから読むという動作ですが、1はローカルにせいぜい数クロックで読めるでしょう2はpの指すアドレスがどこかメインメモリにあったり遠いノードのローカルメモりにあったりするかもしれないので、非常に長いサイクルがかかる可能性があるということは2を大量に並列に実行して、あちこちからバラバラと読み出しデータが順不同にやってくるのが効率化になります「あちこちからバラバラ、レイテンシ不定で読む」というのは強力なキャッシュ+アウトオブオーダースーパースカラでないと、データフロー同期などの特殊な仕組みがなければ性能はでません静的なスケジューリングとは正反対ですからね
そんなどこから読むのか分からないような作りだと、物理CPUが数個、100スレッドぐらいまでなら性能出ても、1000スレッド、10000スレッドでは性能でないよ。そもそもこういうスパコンは共有メモリではないので、アドレス指定して遠くから読むという動作自体が想定にない。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
身近な人の偉大さは半減する -- あるアレゲ人
実用アプリケーションではどんなもんなんでしょうかね? (スコア:0)
実際のアプリケーション走らせてみた場合,どれくらい実用的な速度で動くのか,等々が1ユーザーとしては非常に気になる所ですね.
開発環境等が揃ってないと,非常に使いにくいスパコンって感じになってしまいそうですよね.
# 2MWくらいまでなら,なんとか導入出来るっていう事業所結構多いと思うんですがね...
ところで,液浸HPCというとCRAY-2を思い出しますが,あんな感じでメンテナンスしにくい筐体なのかな...
# SPARC64VIIIfxユーザーなので,AC
Re: (スコア:0)
pezyにはキャッシュがなくスクラッチパッドでやるので、 SPARC64VIIIfxユーザーには発狂ものかも
まあ、スクラッチパッドで十分なものだけを計算させるために買ったんでしょう
Re: (スコア:0)
これだけの数プロセッサで並列性を出そうと思ったら、どうせキャッシュを当てにした書き方なんてできない。
スパコン専用CPUならこれでいいのでは?
スパコン以外にも使うXeonとかSPARCではそういうわけにもいかないでしょうけど。
Re:実用アプリケーションではどんなもんなんでしょうかね? (スコア:1)
> スパコン専用CPUならこれでいいのでは?
粗行列演算であるhpcgでは太湖之ヒカリなんて京の1/10以下、gpuに比べても1/3から1/4の効率になります
pezyのランクは出ていませんが、たぶんやらなかったでしょうね
京はノード内のランダムアクセスもインターコネクトも強力なのですが、
pezyも太湖之光もそこは割り切って密行列に特化していると思います
買うほうもトラックとスポーツカーくらいは違うと認識しているでしょう
Re: (スコア:0)
それはその通りだけど、キャッシュと関係ある話?
コメント付けるところを別の枝と間違えたのかな。
Re: (スコア:0)
間接参照は
1. pをメモりから読む
2. *pをメモりから読む
という動作ですが、1はローカルにせいぜい数クロックで読めるでしょう
2はpの指すアドレスがどこかメインメモリにあったり遠いノードのローカルメモりにあったりするかもしれないので、非常に長いサイクルがかかる可能性がある
ということは2を大量に並列に実行して、あちこちからバラバラと読み出しデータが順不同にやってくるのが効率化になります
「あちこちからバラバラ、レイテンシ不定で読む」というのは強力なキャッシュ+アウトオブオーダースーパースカラでないと、データフロー同期などの特殊な仕組みがなければ性能はでません
静的なスケジューリングとは正反対ですからね
Re: (スコア:0)
そんなどこから読むのか分からないような作りだと、物理CPUが数個、100スレッドぐらいまでなら性能出ても、1000スレッド、10000スレッドでは性能でないよ。
そもそもこういうスパコンは共有メモリではないので、アドレス指定して遠くから読むという動作自体が想定にない。