アカウント名:
パスワード:
ではLINPACKについてはどうか、ですよね。
資料のp.6から1台でのスコアが書いてありますが、 たとえばSX-6のシングルプロセッサでは TPP Best Effort/Theoritical Peakが95%くらいですから、 ベクトル1プロセッサにオプションつけてコンパイルする程度だと それくらいになるような問題ってことですね。 チューニングを頑張るともっと上がるんでしょうけど。
リストにはG5の1プロセッサのベンチマーク結果はないけど、 AltiVecの効果の参考になるのは、 pSeries690Turboの56%とか、 Pentium4の47%とかかな。 スカラプロセッサ+SIMDだときっとそんなオーダーなんでしょう。
クラスタの効果ではどうかというと、 同じ規模ってことで非ベクトルで2000プロセッサ程度のを探すと、 p690×50台が51%、 PRIMEPOEWR HPC2500が45%か。 48%なら頑張っているんじゃないかな。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー
効率 (スコア:2, 参考になる)
単
Re:効率 (スコア:1)
> 状況がそもそも夢みたいな事なんだから、むしろ48.3%はG5が64bitで動いて
> いることを考えるとぴったりの数字なような気が。
書いてある意味がよく分からないのですが、夢みたいな事というのは
どういう事でしょうか?
ベクトル演算が効くかどうかは、プログラムに依るわけで、
ベクトル化に適したプログラム(流体計算とか)なら
ベクトル化率99%とかは普通です。
それにベ
Re:効率 (スコア:0)
実測値と理論値が同等なんて、ほとんどありえない話ですがね。
Re:効率 (スコア:3, 参考になる)
ではLINPACKについてはどうか、ですよね。
資料のp.6から1台でのスコアが書いてありますが、 たとえばSX-6のシングルプロセッサでは TPP Best Effort/Theoritical Peakが95%くらいですから、 ベクトル1プロセッサにオプションつけてコンパイルする程度だと それくらいになるような問題ってことですね。 チューニングを頑張るともっと上がるんでしょうけど。
リストにはG5の1プロセッサのベンチマーク結果はないけど、 AltiVecの効果の参考になるのは、 pSeries690Turboの56%とか、 Pentium4の47%とかかな。 スカラプロセッサ+SIMDだときっとそんなオーダーなんでしょう。
クラスタの効果ではどうかというと、 同じ規模ってことで非ベクトルで2000プロセッサ程度のを探すと、 p690×50台が51%、 PRIMEPOEWR HPC2500が45%か。 48%なら頑張っているんじゃないかな。
Re:効率 (スコア:2, 参考になる)
PowerPC 970 や Pentium 4 は浮動少数点演算の演算器が 2つあり、それらのスループットは 1命令/cycle。2つの演算器を完全に埋めることができれば、2命令/cycle の浮動小数点演算命令を実行できます。
(注1: Pentium 4 の場合は、この場合、命令と言ってもμop)
(注2: PowerPC 970 の場合、積和演算によって 2命令/cycle → 4演算/cycle)
この際、演算器をフルに埋める手段として SIMD 演算命令が使われることが多いのだとは思います。しかし、もし命令のデコードが1命令/cycle より速ければ SIMD 演算命令を使わずとも演算器をフル稼動させられるかもしれません。また、1命令/cycle のプロセッサにだって、1000の演算を1度に指示する命令は実装できます。実行には 1000クロックかかるわけですが。
実際のところ、演算器をフル稼動させるためには SIMD 演算命令が必要というプロセッサが多いのだとは思います。しかし、SIMD 演算命令は飽くまで演算器をフル稼動させるに足るだけのスループットでもって演算を指示するための手段である、という認識が、いまどきは適当なように思います。
# ごぶさたです tmiura さん
Re:効率 (スコア:1)
一般にSIMD命令はSIMD専用の演算器を使うので、あまりに的外れですね。
>飽くまで演算器をフル稼動させるに足るだけのスループットでもって演算を指示するための手段
それを目的としているのはSIMDではなくて、HyperThreadingだと思いますが。
[tomoyu-n]
Re:効率 (スコア:1)
少なくとも Pentium 4 プロセッサでは、浮動小数点のスカラ演算 (x87) 命令と、SSE/SSE2 での浮動小数点演算で、演算器 (adderとかmultiplier) は共用ですヨ。
Re:効率 (スコア:1)
一方で、HPL (Linpackベンチ) の結果は倍精度演算での性能なので、つまり AltiVec (SIMD 演算) 命令を使っての結果ではありません。
Re:効率 (スコア:1, 参考になる)
Re:効率 (スコア:0)
使う人はみんな自前で書くのが普通なのでは?
Re:効率 (スコア:0)