アカウント名:
パスワード:
>精度の問題で利用できる範囲は非常に狭いです。
倍精度の演算器では足りないの?四倍精度などのそれ以上をソフトウェア的にやっても駄目?
今のGPGPUだと、最近出た新しいやつでピーク性能は倍精度で500GFLOPSぐらい。その前の世代でも250GFLOPSぐらい。倍精度でよければ数百基積めばそれなりの速度は出ると思うけど?#ソフトウェア側の工夫がいるとか、分割できる問題でないとというのは当然だけれども。
GPUは、速度は滅茶苦茶速いですけど、メモリが少ないので、性能を引き出すのがすごく難しいんですよ。以前書いたコメントからのコピペ [srad.jp]なので、1年以上前の情報ですが、
姫野ベンチのCUDA最適化という例を挙げられてたんですが、CPUだけだとは実測1GFlopsぐらいなんですが、理論値600GFlopsのGPU4枚で、実測50GFlopsぐらい出せたとか。コアはたったの2%しか働いてない
って感じ。それでも、GPUは単価が安いので数で攻めることができるわけですが、プログラミングの難易度は格段に高いと思います。ちょっとした違いで速度が大幅に変わってきます。
今回の事例では、768GPUみたいですが、1GPUが1TFlopsとしても、ピーク768TFlopsで、実効158TFlopsと、20%もの性能を引き出してることになります。
GPGPUでこれだけ性能を出せたのは、「扱っている多体問題がGPGPU向けだった」ってことと「プログラマが凄く頑張った」ってことは言えると思います。このコンピュータが、「どんな問題でもそれだけの性能が出せる」って考えてはダメでしょう。
本研究においては、長崎大学に構築した大規模なGPUクラスタを利用し、その上に天文学向けにはツリー法、 流体計算では高速多重極法と呼ばれる手法を実装しました。これらは実用的に用いられている高速な計算手法ですが、 その反面複雑で並列化がしにくく、GPUによる並列化が難しかった手法です。 しかし、新しく開発した「マルチウォーク法」により効率の良い並列化を可能とし、高い効率を得ることに成功しました。
とのことで、プログラマが凄く優秀かつ凄く頑張って 扱っている多体問題をGPGPU向けのアルゴリズムで解けるようにした、ではないでしょうか。 GPGPUでのプログラミング能力と、GPGPU向きのアルゴリズムを考案する能力が揃わなければ これだけの成果は出なかったと思います。 新しいアルゴリズムの開発が出来る問題ばかりではないでしょうし、出来るような人材がごろごろいるわけでもないでしょうから 大規模な次世代スパコンの開発も行うべきだと思いますが、こういった人材を育てる方面にももっと予算を出して欲しいです。 上手く育ってくれない例のほうが多いかもしれませんが、上手くいくと初めから分かっていれば 国が予算を出さなくとも、余裕のある企業が手を出すでしょうし・・・ # HTMLのプレスリリースの一部がダブっているのは、大事なことなので二回言いました?
>って感じ。それでも、GPUは単価が安いので数で攻めることができるわけですが、プログラミングの難易度は格段に高いと思います。>ちょっとした違いで速度が大幅に変わってきます。
それはそうなんだけど、元々日本がやってたベクトルコンピュータもそれは基本的に同じ問題を抱えてた訳で。力技のスカラー&超並列が主流なのも、そこら辺をカバーして余りある汎用性と、単体で足りないところは数でカバーが出来るほどの低コスト(比較)にある訳ですからねぇ。
それはともかく、今回の受賞もH/Wに対してではなく問題解決のソフトウェア部分に対してでしょう? スラドでもなにやらH/Wの話ばかりでそこがあまり取り上げられないのはなんだかな。京速計算機プロジェクトに今一支持したい気になれないのは、結局はH/Wに偏重しすぎている従来型ハコモノ土建型公共事業の匂いが強すぎて、ソフトウェアやサービスのコストを評価しないところですね。
>性能を引き出すのがすごく難しいんですよ。
ああ、それは承知しているのですが、元コメの方が「精度の問題で」と書いてあったことに疑問を持ったもので。#昔の単精度しかできないGPGPUならともかく、最近の倍精度もできるやつならそんなに問題にならんのじゃないかなあと。
>GPUは、速度は滅茶苦茶速いですけど、メモリが少ないので、性能を引き出すのがすごく難しいんですよ。
なのでnVidiaの次期GPU Fermiでは内部メモリが増え、より汎用計算向けになりました(3DCG描画はその一環) [impress.co.jp]。
そういう性能って、本来のGPUの役割として必要なんだろうか。倍精度計算も含めて
グラフィック描画のついでで計算するならともかく、計算目当ての設計になってくるとだんだん一般人向けじゃなくなりコストが上がってくるような……
2位のCELLを使った奴が75%だそうで、この差はローカルメモリと推測されてますのですでにコメントされてますが、ローカルメモリとして固定できるキャッシュを搭載したFermiならもう少しいけそうですね。
もちろんメモリ帯域にだけスケーリングするようなプログラムならベクトル機最強ですけど。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家
たしかに (スコア:0)
地球シミュレータの開発が凍結されてもしかたありませんよね。
国の政策でなく、大学の研究レベルで高スペックのものが出来るようになったというのは
GPUメーカーのおかげではあるけれど、正しい研究開発の姿ではないでしょうか。
ここも馬鹿文系ばっかりか (スコア:1, 参考になる)
GPUを利用したのは確かに安くて速いんだけど精度の問題で
利用できる範囲は非常に狭いです。
地球コンピュータとこれを単純に速度だけ比べるというのは
全く意味の無い比較
Re: (スコア:0)
>精度の問題で利用できる範囲は非常に狭いです。
倍精度の演算器では足りないの?
四倍精度などのそれ以上をソフトウェア的にやっても駄目?
今のGPGPUだと、最近出た新しいやつでピーク性能は倍精度で500GFLOPSぐらい。
その前の世代でも250GFLOPSぐらい。
倍精度でよければ数百基積めばそれなりの速度は出ると思うけど?
#ソフトウェア側の工夫がいるとか、分割できる問題でないとというのは当然だけれども。
Re:ここも馬鹿文系ばっかりか (スコア:4, 参考になる)
GPUは、速度は滅茶苦茶速いですけど、メモリが少ないので、性能を引き出すのがすごく難しいんですよ。
以前書いたコメントからのコピペ [srad.jp]なので、1年以上前の情報ですが、
って感じ。それでも、GPUは単価が安いので数で攻めることができるわけですが、プログラミングの難易度は格段に高いと思います。
ちょっとした違いで速度が大幅に変わってきます。
今回の事例では、768GPUみたいですが、1GPUが1TFlopsとしても、
ピーク768TFlopsで、実効158TFlopsと、20%もの性能を引き出してることになります。
GPGPUでこれだけ性能を出せたのは、「扱っている多体問題がGPGPU向けだった」ってことと「プログラマが凄く頑張った」ってことは言えると思います。
このコンピュータが、「どんな問題でもそれだけの性能が出せる」って考えてはダメでしょう。
Re:ここも馬鹿文系ばっかりか (スコア:2)
研究対象は(元から)GPGPU向けの問題だったのではと思いましたが、
理研のプレスリリース [riken.go.jp]によると
とのことで、プログラマが凄く優秀かつ凄く頑張って
扱っている多体問題をGPGPU向けのアルゴリズムで解けるようにした、ではないでしょうか。
GPGPUでのプログラミング能力と、GPGPU向きのアルゴリズムを考案する能力が揃わなければ
これだけの成果は出なかったと思います。
新しいアルゴリズムの開発が出来る問題ばかりではないでしょうし、出来るような人材がごろごろいるわけでもないでしょうから
大規模な次世代スパコンの開発も行うべきだと思いますが、こういった人材を育てる方面にももっと予算を出して欲しいです。
上手く育ってくれない例のほうが多いかもしれませんが、上手くいくと初めから分かっていれば
国が予算を出さなくとも、余裕のある企業が手を出すでしょうし・・・
# HTMLのプレスリリースの一部がダブっているのは、大事なことなので二回言いました?
単なる臆病者の Anonymous Cat です。略してACです。
Re:ここも馬鹿文系ばっかりか (スコア:1, 興味深い)
>って感じ。それでも、GPUは単価が安いので数で攻めることができるわけですが、プログラミングの難易度は格段に高いと思います。
>ちょっとした違いで速度が大幅に変わってきます。
それはそうなんだけど、元々日本がやってたベクトルコンピュータもそれは基本的に同じ問題を抱えてた訳で。力技のスカラー&超並列が主流なのも、そこら辺をカバーして余りある汎用性と、単体で足りないところは数でカバーが出来るほどの低コスト(比較)にある訳ですからねぇ。
それはともかく、今回の受賞もH/Wに対してではなく問題解決のソフトウェア部分に対してでしょう? スラドでもなにやらH/Wの話ばかりでそこがあまり取り上げられないのはなんだかな。
京速計算機プロジェクトに今一支持したい気になれないのは、結局はH/Wに偏重しすぎている従来型ハコモノ土建型公共事業の匂いが強すぎて、ソフトウェアやサービスのコストを評価しないところですね。
Re:ここも馬鹿文系ばっかりか (スコア:1, 興味深い)
つい忘れがちなんだけど、今日日そこそこの規模のクラスタくらいならみんな自前のを持ってんだよね。
それだけじゃどうしてもだめだっつんで、共用の大型スパコンの世話になるわけで。
> 京速計算機プロジェクトに今一支持したい気になれないのは、結局はH/Wに偏重しすぎている従来型ハコモノ土建型公共事業の匂いが強すぎて、ソフトウェアやサービスのコストを評価しないところですね。
クラスタでCFDやってる人を見れば、ベクトル機買ってあげようよという気にはなるけどね。ソフトウェアやサービスのコストってこういうことでしょ。
Re: (スコア:0)
リンク先の西日本新聞の記事では
> GPUを大量につなげられるプログラムの開発が成功のカギとなり、数百億円規模が必要とされる開発費用を3800万円に抑えたという。天体物理学などの複雑な計算での活用が見込まれる。
と、きちんと報じられていますので、スラドはマスゴミ以下ということでしょうか。
Re: (スコア:0)
>性能を引き出すのがすごく難しいんですよ。
ああ、それは承知しているのですが、元コメの方が「精度の問題で」と書いてあったことに疑問を持ったもので。
#昔の単精度しかできないGPGPUならともかく、最近の倍精度もできるやつならそんなに問題にならんのじゃないかなあと。
Re: (スコア:0)
>GPUは、速度は滅茶苦茶速いですけど、メモリが少ないので、性能を引き出すのがすごく難しいんですよ。
なのでnVidiaの次期GPU Fermiでは内部メモリが増え、より汎用計算向けになりました(3DCG描画はその一環) [impress.co.jp]。
Re: (スコア:0)
そういう性能って、本来のGPUの役割として必要なんだろうか。倍精度計算も含めて
グラフィック描画のついでで計算するならともかく、計算目当ての設計になってくるとだんだん一般人向けじゃなくなりコストが上がってくるような……
Re: (スコア:0)
普通は単一デザインのほうが安くなります。製造コストが倍になったりはしませんので。
現在TOP5のGPUスパコン天河は実行性能25%とか (スコア:0)
2位のCELLを使った奴が75%だそうで、この差はローカルメモリと推測されてますので
すでにコメントされてますが、ローカルメモリとして固定できるキャッシュを搭載したFermiなら
もう少しいけそうですね。
もちろんメモリ帯域にだけスケーリングするようなプログラムならベクトル機最強ですけど。