アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ソースを見ろ -- ある4桁UID
Gがじゃなくて (スコア:1)
GってPen4と勝負になっちまう・・・
Re:Gがじゃなくて (スコア:1)
PowerMac G4 1GHz Dualだって15GFlopsあるからなぁ。
メモリ帯域で比較しよう (スコア:2, 参考になる)
> PowerMac G4 1GHz Dualだって15GFlopsあるからなぁ。
大規模数値演算をとく場合、メモリ転送能力の伴わないCPU の演算能力ってはったりにしかなりません。
PowerMac のバス構成をよく知らないけどおそらく 266MB/sec 以下。dual 構成だと 1 CPU 当たり 133MB/sec。
かたや地球シミュレータに使われる SX-5 は単体プロセッサへのデータ供給能力が 40GB/sec に達している。
論より証拠、TOP500 [top500.org]を見て欲しいのだけど、
4位 のインテルは 9,632 CPU 使って 2379.00 GFlops。
# 発表時期から考えて Pentium 2 or 3。
1 CPU あたり0.247 GFlops
12位の NEC SX-5/128M8 は 128 CPU を使って 1192.00 GFlops.
1 CPU あたり 9.31 GFlops。
CPU がいくら速くても、パソコンとスパコンを比較するのは無理です。
コンタミは発見の母
Re:メモリ帯域で比較しよう (スコア:2, 参考になる)
> たりにしかなりません。
それは問題に依存します。大規模数値演算とは言え、メモリバンド幅が要らない問題はいくらでもあるので。
たとえば、「メモリバンド幅が重要だ」という論拠にLINPACKを持ってきたのかもしれませんが、LINPACKは実はメモリバンド幅がそれほど必要ないのです。
LINPACKでは、計算時間のほとんどがオンキャッシュのデータに対して行われるので、CPU=キャッシュ間のバンド幅が演算ユニットにデータを充填するだけあれば、それで十分なのです。
> PowerMac のバス構成をよく知らないけどおそらく 266MB/sec 以下。dual 構
> 成だと 1 CPU 当たり 133MB/sec。かたや地球シミュレータに使われる SX-5
> は単体プロセッサへのデータ供給能力が 40GB/sec に達している。
ですから、上の比較はLINPACKにおいてはあんまり意味がありません。
> 4位 のインテルは … 1 CPU あたり0.247 GFlops
> 12位の NEC SX-5/128M8 は … 1 CPU あたり 9.31 GFlops。
という差も、ほぼCPU当たりの演算ユニット数で決まっています。
# メモリバンド幅の違いは、RmaxよりむしろNmaxとNhalfの比に現れます。
> CPU がいくら速くても、パソコンとスパコンを比較するのは無理です。
「性能を見るときはメモリバンド幅の差も考慮しなければいけない」という主張にはもちろん同意です。
Re:メモリ帯域で比較しよう (スコア:1)
> が、LINPACKは実はメモリバンド幅がそれほど必要ないのです。
本当だ。
東工大の Athlon クラスタや、RCCP のクラスタを見ると
x86 系だと内部クロックに比例して Pmax が上がっている。
でも何故だろう。
LINPACK って密行列の線形一次方程式の求解ですよね。
結局 LU 分解を解くわけですけど、なぜメモリバンド幅に依存しないんだろう、、、
と考えながら High-Performance Linpack のアルゴリズムを見て納得。
過去にシングル CPU で LU 分解を解いていて、キャッシュブロックと
プリフェチを組み合わせても結局メモリバンド幅がボトルネックに
なった経験があったのですが、、、アルゴリズムが悪かった!?
コンタミは発見の母
Re:メモリ帯域で比較しよう (スコア:1)
># 発表時期から考えて Pentium 2 or 3。
PentiumProの200Mhzだったような
プロセッサはPCベースとはいえ、アーキテクチャーはIntel HPC部門の特殊ハードを使ってたはずです(撤退してもうないけど>Intelには)
とは言え、HPCとPCではPE間通信速度、メモリーレイテンシ、ノード間接続速度、アドレス空間の大きさ、プロセス調停能力、冗長性のどれを取ってみても比較にならないのは同意
妊婦が10人いてもねぇ・・・。