アカウント名:
パスワード:
実際のアプリケーション走らせてみた場合,どれくらい実用的な速度で動くのか,等々が1ユーザーとしては非常に気になる所ですね.開発環境等が揃ってないと,非常に使いにくいスパコンって感じになってしまいそうですよね.# 2MWくらいまでなら,なんとか導入出来るっていう事業所結構多いと思うんですがね...
ところで,液浸HPCというとCRAY-2を思い出しますが,あんな感じでメンテナンスしにくい筐体なのかな...
# SPARC64VIIIfxユーザーなので,AC
Top500のリスト [top500.org]の説明で触れられていますが,実用アプリケーション処理速度に近いベンチマークとして HPCG があり,Top500, Green500 とともに最新の順位が発表されました.スーパーコンピューター「京」世界1位を守る―産業性能などの国際ランキング「HPCG」 [internetcom.jp]
理化学研究所(理研)と富士通が手掛けるスーパーコンピューター「京(けい)」が世界1位の座を守った。産業利用など実際のアプリケーションで使う処理速度を競う国際ランキング「HPCG(High Performance Conjugate Gradient)」で3期連続の最高成績を収めた。(中略)単純な計算能力をみるTOP500では中国勢が躍進する一方、消費電力などの効率も加味した「Green500」ではコンピューターを丸ごと液体に漬けて発生する熱をとりのぞく「液浸冷却」技術を特徴とした「Shoubu(菖蒲)」をはじめとする日本勢が優位にある。
HPCG 主催者による結果発表 [hpcg-benchmark.org]では暁光,菖蒲などの ExaScaler のスパコンは100位までで見当たらなかったので,出場していない(Top500, Green500 に集中している)のでしょう.参考までHPCGの上位5位に関する (HPCG, Top500) の順位の組は次の通り.京 (1, 10), 天河2号 中国 (2, 2), Trinity アメリカ (3, 7), Piz Daint スイス (4, 3), 神威太湖之光 (5,1)
暁光が実用アプリケーションを効率よく処理できる証拠としては Top500 の成績以外にも何かあるといいなと思います.
Cray-2のフロリナートは、高密度実装の結果空冷するだけの隙間がボード間に無かったという事情だし。最近は、空冷、空調にかける膨大な電力とメンテナンスコストを抑えるために不活性フッ素系有機冷媒使用じゃなかろうか。
PC Watch の記事の写真を見た時の感想は、二槽式洗濯機?
pezyにはキャッシュがなくスクラッチパッドでやるので、 SPARC64VIIIfxユーザーには発狂ものかもまあ、スクラッチパッドで十分なものだけを計算させるために買ったんでしょう
https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc [wikichip.org]https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc2 [wikichip.org]pezy-scのpeは2wayのインオンーダースーパースカラで、これが8wayのSMTになってゆpe二つが2kbのL1D$を共有していて、ここにはレジスタスピルとか局所変数とかそういうのを置き、計算対象となる大域データはpeごとに16kbあるローカルストレージに持ってくるpe同士やマネジメントのmipsとの通信はL2$やLLCを経由して(明示的にLSにコピーすることにより)行うコヒーレントキャッシュではない
よくできているが、間接参照には弱いと思われる同じスクラッチパッドマシンの太湖之光と違い、階層的な構造になっているのが面白い太湖之光の局所変数もスクラッチパッドに置くところは好きではない
16kbあるローカルストレージで8スレッド動かすってこと?
イエーススレッドあたり2kb、256ワードですダブルバッファリングすると、さらに減るちなみに命令L1も2kbしかないです
命令2kbといえば512命令、ソフトウェアパイプラインが不要でコードの小さなSMTはうまくツボってますスクラッチパッドもベクトルレジスタのように使い、L2D$で局所性も活用できるさすが国産
ローカルストレージがレジスタファイルでPEが一つのベクトルプロセッサみたいなものなのかな?ダブルバッファリングはなんでいるの?L2D$が遅い?
・計算と・計算結果の書き出し/次に計算するデータの読み込みをオーバーラップするので、ダブルバッファリングすることになります細かく同期する仕組みがあればバッファは小さく取れますが
PS3のCellとどっちが大変?
これだけの数プロセッサで並列性を出そうと思ったら、どうせキャッシュを当てにした書き方なんてできない。スパコン専用CPUならこれでいいのでは?スパコン以外にも使うXeonとかSPARCではそういうわけにもいかないでしょうけど。
> スパコン専用CPUならこれでいいのでは?
粗行列演算であるhpcgでは太湖之ヒカリなんて京の1/10以下、gpuに比べても1/3から1/4の効率になりますpezyのランクは出ていませんが、たぶんやらなかったでしょうね
京はノード内のランダムアクセスもインターコネクトも強力なのですが、pezyも太湖之光もそこは割り切って密行列に特化していると思います買うほうもトラックとスポーツカーくらいは違うと認識しているでしょう
それはその通りだけど、キャッシュと関係ある話?コメント付けるところを別の枝と間違えたのかな。
間接参照は1. pをメモりから読む2. *pをメモりから読むという動作ですが、1はローカルにせいぜい数クロックで読めるでしょう2はpの指すアドレスがどこかメインメモリにあったり遠いノードのローカルメモりにあったりするかもしれないので、非常に長いサイクルがかかる可能性があるということは2を大量に並列に実行して、あちこちからバラバラと読み出しデータが順不同にやってくるのが効率化になります「あちこちからバラバラ、レイテンシ不定で読む」というのは強力なキャッシュ+アウトオブオーダースーパースカラでないと、データフロー同期などの特殊な仕組みがなければ性能はでません静的なスケジューリングとは正反対ですからね
そんなどこから読むのか分からないような作りだと、物理CPUが数個、100スレッドぐらいまでなら性能出ても、1000スレッド、10000スレッドでは性能でないよ。そもそもこういうスパコンは共有メモリではないので、アドレス指定して遠くから読むという動作自体が想定にない。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ研究家
実用アプリケーションではどんなもんなんでしょうかね? (スコア:0)
実際のアプリケーション走らせてみた場合,どれくらい実用的な速度で動くのか,等々が1ユーザーとしては非常に気になる所ですね.
開発環境等が揃ってないと,非常に使いにくいスパコンって感じになってしまいそうですよね.
# 2MWくらいまでなら,なんとか導入出来るっていう事業所結構多いと思うんですがね...
ところで,液浸HPCというとCRAY-2を思い出しますが,あんな感じでメンテナンスしにくい筐体なのかな...
# SPARC64VIIIfxユーザーなので,AC
スパコンの実用アプリケーション処理速度は京が世界一を守る (スコア:2)
Top500のリスト [top500.org]の説明で触れられていますが,実用アプリケーション処理速度に近いベンチマークとして HPCG があり,Top500, Green500 とともに最新の順位が発表されました.
スーパーコンピューター「京」世界1位を守る―産業性能などの国際ランキング「HPCG」 [internetcom.jp]
理化学研究所(理研)と富士通が手掛けるスーパーコンピューター「京(けい)」が世界1位の座を守った。産業利用など実際のアプリケーションで使う処理速度を競う国際ランキング「HPCG(High Performance Conjugate Gradient)」で3期連続の最高成績を収めた。
(中略)
単純な計算能力をみるTOP500では中国勢が躍進する一方、消費電力などの効率も加味した「Green500」ではコンピューターを丸ごと液体に漬けて発生する熱をとりのぞく「液浸冷却」技術を特徴とした「Shoubu(菖蒲)」をはじめとする日本勢が優位にある。
HPCG 主催者による結果発表 [hpcg-benchmark.org]では暁光,菖蒲などの ExaScaler のスパコンは100位までで見当たらなかったので,出場していない(Top500, Green500 に集中している)のでしょう.参考までHPCGの上位5位に関する (HPCG, Top500) の順位の組は次の通り.
京 (1, 10), 天河2号 中国 (2, 2), Trinity アメリカ (3, 7), Piz Daint スイス (4, 3), 神威太湖之光 (5,1)
暁光が実用アプリケーションを効率よく処理できる証拠としては Top500 の成績以外にも何かあるといいなと思います.
Re:実用アプリケーションではどんなもんなんでしょうかね? (スコア:1)
Cray-2のフロリナートは、高密度実装の結果空冷するだけの隙間がボード間に無かったという事情だし。
最近は、空冷、空調にかける膨大な電力とメンテナンスコストを抑えるために不活性フッ素系有機冷媒使用じゃなかろうか。
Re: (スコア:0)
PC Watch の記事の写真を見た時の感想は、二槽式洗濯機?
Re: (スコア:0)
pezyにはキャッシュがなくスクラッチパッドでやるので、 SPARC64VIIIfxユーザーには発狂ものかも
まあ、スクラッチパッドで十分なものだけを計算させるために買ったんでしょう
Re:実用アプリケーションではどんなもんなんでしょうかね? (スコア:3, 参考になる)
https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc [wikichip.org]
https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc2 [wikichip.org]
pezy-scのpeは2wayのインオンーダースーパースカラで、これが8wayのSMTになってゆ
pe二つが2kbのL1D$を共有していて、ここにはレジスタスピルとか局所変数とかそういうのを置き、計算対象となる大域データはpeごとに16kbあるローカルストレージに持ってくる
pe同士やマネジメントのmipsとの通信はL2$やLLCを経由して(明示的にLSにコピーすることにより)行う
コヒーレントキャッシュではない
よくできているが、間接参照には弱いと思われる
同じスクラッチパッドマシンの太湖之光と違い、階層的な構造になっているのが面白い
太湖之光の局所変数もスクラッチパッドに置くところは好きではない
Re: (スコア:0)
16kbあるローカルストレージで8スレッド動かすってこと?
Re: (スコア:0)
イエース
スレッドあたり2kb、256ワードです
ダブルバッファリングすると、さらに減る
ちなみに命令L1も2kbしかないです
Re: (スコア:0)
命令2kbといえば512命令、ソフトウェアパイプラインが不要でコードの小さなSMTはうまくツボってます
スクラッチパッドもベクトルレジスタのように使い、L2D$で局所性も活用できる
さすが国産
Re: (スコア:0)
ローカルストレージがレジスタファイルでPEが一つのベクトルプロセッサみたいなものなのかな?
ダブルバッファリングはなんでいるの?L2D$が遅い?
Re: (スコア:0)
・計算
と
・計算結果の書き出し/次に計算するデータの読み込み
をオーバーラップするので、ダブルバッファリングすることになります
細かく同期する仕組みがあればバッファは小さく取れますが
Re: (スコア:0)
PS3のCellとどっちが大変?
Re: (スコア:0)
これだけの数プロセッサで並列性を出そうと思ったら、どうせキャッシュを当てにした書き方なんてできない。
スパコン専用CPUならこれでいいのでは?
スパコン以外にも使うXeonとかSPARCではそういうわけにもいかないでしょうけど。
Re:実用アプリケーションではどんなもんなんでしょうかね? (スコア:1)
> スパコン専用CPUならこれでいいのでは?
粗行列演算であるhpcgでは太湖之ヒカリなんて京の1/10以下、gpuに比べても1/3から1/4の効率になります
pezyのランクは出ていませんが、たぶんやらなかったでしょうね
京はノード内のランダムアクセスもインターコネクトも強力なのですが、
pezyも太湖之光もそこは割り切って密行列に特化していると思います
買うほうもトラックとスポーツカーくらいは違うと認識しているでしょう
Re: (スコア:0)
それはその通りだけど、キャッシュと関係ある話?
コメント付けるところを別の枝と間違えたのかな。
Re: (スコア:0)
間接参照は
1. pをメモりから読む
2. *pをメモりから読む
という動作ですが、1はローカルにせいぜい数クロックで読めるでしょう
2はpの指すアドレスがどこかメインメモリにあったり遠いノードのローカルメモりにあったりするかもしれないので、非常に長いサイクルがかかる可能性がある
ということは2を大量に並列に実行して、あちこちからバラバラと読み出しデータが順不同にやってくるのが効率化になります
「あちこちからバラバラ、レイテンシ不定で読む」というのは強力なキャッシュ+アウトオブオーダースーパースカラでないと、データフロー同期などの特殊な仕組みがなければ性能はでません
静的なスケジューリングとは正反対ですからね
Re: (スコア:0)
そんなどこから読むのか分からないような作りだと、物理CPUが数個、100スレッドぐらいまでなら性能出ても、1000スレッド、10000スレッドでは性能でないよ。
そもそもこういうスパコンは共有メモリではないので、アドレス指定して遠くから読むという動作自体が想定にない。