アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
にわかな奴ほど語りたがる -- あるハッカー
若いツバメが有閑マダムを食い物に(爆) (スコア:3, 興味深い)
TSUBAMEは元々Opteronを大量採用した初期事例で有名なのにTSUBAME 1.2で使われるGPUはNVIDIA(実証環境はGeFroce 8800で、本環境はTesla T10Pだそうで)。
#ということで、下世話ながら表題のフレーズが頭をよぎったAC
Re: (スコア:5, 興味深い)
現状のテストベッドはGeForce 8800GTSを使ったMS HPC-GPGPUクラスタは現在32ノードで、GPUを128枚使用、3ラック40U。Windows Compute Cluster 2003->Windows HPC 2008に移行中とのこと。開発環境はVisual Studio + CUDA 2.x(この辺がATI弱いですからね)
で、GPGPUが一般に降りてこないのは真価を発揮できるというか、CPUに対して圧倒的なパフォーマンスと入れるのがハイエンドのド高いボードを何枚も束ねて使うハイエンド利用に限られているところでしょう。ローエンドでエンコがサクサクとか言うとうれしいんだけど、それならまだCPUの方が早い。
話をCELLに振りますが、リードテックからCELLを使ったパソコン用エンコボードが出ます。今月末発売予定で3万円程度。HDのH.264エンコードがリアルタイム以上(約二倍速だそうだ)でできるということなのでエンコ職人垂涎の製品になりそうな予感。
Re:若いツバメが有閑マダムを食い物に(爆) (スコア:3, 参考になる)
ちょうど、先日東工大の中の人の、CUDAによる流体計算についての講演を受けたんですが、
Geforceを選んだ理由として、RadeonはGPU内の「共有メモリ」が小さいのがネックだとか言ってました。
GPUのコアはものすごく馬鹿っ速いんですが、それに比べると(ビデオカード上の)「グローバルメモリ」はとんでもなくレイテンシーが長く、読みこみに数百クロックは待たされる。
一方、Geforceはコア上には各プロセッサで共有する16KBの「共有メモリ」があって、このメモリはペナルティなく高速にアクセス可能。
そのため、CUDAプログラミングは、問題をいかに「16KBの共有メモリ内に収まるサイズに分割」し、いかに「共有メモリ内で処理を完結させる」ようにできるかどうかがキモだと。
姫野ベンチのCUDA最適化という例を挙げられてたんですが、
CPUだけだとは実測1GFlopsぐらいなんですが、
理論値600GFlopsのGPU4枚で、実測50GFlopsぐらい出せたとか。
コアはたったの2%しか働いてないんですが、それでもCPUより50倍以上は高速なので、GPGPUの価値は高いと。
とにかくメモリアクセスが律速なので、メモリアクセスをいかに減らすかで苦心してるそうです。
Re:若いツバメが有閑マダムを食い物に(爆) (スコア:1)
HPC向けの製品ではFireStream 9250(まだ出てない?)がRV770世代ですね。
CPUにしろGPUにしろライバルメーカー同士の設計が似てきていますが、目指すところは同じですから結局は似たもの同士になるんでしょうね。
Re: (スコア:0)
また怪しい動画が出るベンチマークが出たのかと勘違いしました、姫野龍太郎先生すみません。