アカウント名:
パスワード:
富士通のマシンは、ハードウエア的には1CPU (8core)で1ノードで,ノード間をInfiniBandで繋ぐようだけれど、利点は何なんだろう?ソフト的は、ノードがわかれていてもアドレス空間は共通で、共有メモリーにできるので問題はないが、一般的には4CPUか8CPUからなるボードを1ノードにしている。InfiniBandで繋ぐとバンド幅やレイテンシーの点で不利になる。それを越えるメリットがあるのだろうか。
もうそういう情報って公になったのか。レイテンシの問題のぞけばノード間コネクトの帯域ってもはやローカルメモリの帯域と同じオーダーなので、コスト考えるとノードあたりマルチコアCPUを1ソケット、って考え方は理解できる。
さらには、どうせ複数ソケットをノード内に載せても今時のアーキテクチャはソケットあたりにメモリが紐づけのNUMAだから、ソケット毎にMPIプロセスを立てることになる。とすると通信時においていくらノード内のデータ交換が高速でも結局ノードをまたぐ通信が完了するのを待つから、ノードあたり1ソケットのSMPでノード内はスレッド並列、ノード毎にMPIプロセス立てるってのがいろんな意味で最適かと。
もちろんNUMAなノードがたくさんのクラスタにおいて、ノードあたりに個別のMPIコミュニケータ立ててやって通信帯域に合わせた階層構造にして最適化をはかるという手もあるが、面倒くさくて自分はそんなコード書きたくないなー。
IEEEのComputer (Computer Socの雑誌)の11月号に載っています。TOFUと呼ぶみたいです。すでに書かれていますか、2x3x2のトーラスを1つのノードとして、3次元トーラスにつながるようです。内側のトーラスで1+2+1本、外側のトーラスで2+2+2本で、計10本のコネクトが1つのCPUノードから出ることになるみたいです。
利点もあるのでしょうが、何か大変そうな気がします。大学のセンターに入れるとすれば、かなりの仕事が8CPUもあれば十分ですので、実際的なコストパフォーマンスが悪そうな気がします。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
Stay hungry, Stay foolish. -- Steven Paul Jobs
1CPU 1ノードの構成の利点は? (スコア:1)
富士通のマシンは、ハードウエア的には1CPU (8core)で1ノードで,
ノード間をInfiniBandで繋ぐようだけれど、利点は何なんだろう?
ソフト的は、ノードがわかれていてもアドレス空間は共通で、
共有メモリーにできるので問題はないが、
一般的には4CPUか8CPUからなるボードを1ノードにしている。
InfiniBandで繋ぐとバンド幅やレイテンシーの点で不利になる。
それを越えるメリットがあるのだろうか。
Re:1CPU 1ノードの構成の利点は? (スコア:2, 興味深い)
もうそういう情報って公になったのか。
レイテンシの問題のぞけばノード間コネクトの帯域ってもはや
ローカルメモリの帯域と同じオーダーなので、コスト考えると
ノードあたりマルチコアCPUを1ソケット、って考え方は理解できる。
さらには、どうせ複数ソケットをノード内に載せても今時のアーキテクチャは
ソケットあたりにメモリが紐づけのNUMAだから、ソケット毎にMPIプロセスを
立てることになる。
とすると通信時においていくらノード内のデータ交換が高速でも結局ノードを
またぐ通信が完了するのを待つから、ノードあたり1ソケットのSMPでノード内は
スレッド並列、ノード毎にMPIプロセス立てるってのがいろんな意味で最適かと。
もちろんNUMAなノードがたくさんのクラスタにおいて、
ノードあたりに個別のMPIコミュニケータ立ててやって
通信帯域に合わせた階層構造にして最適化をはかるという
手もあるが、面倒くさくて自分はそんなコード書きたくないなー。
Re:1CPU 1ノードの構成の利点は? (スコア:1)
IEEEのComputer (Computer Socの雑誌)の11月号に載っています。
TOFUと呼ぶみたいです。
すでに書かれていますか、2x3x2のトーラスを1つのノードとして、
3次元トーラスにつながるようです。
内側のトーラスで1+2+1本、外側のトーラスで2+2+2本で、
計10本のコネクトが1つのCPUノードから出ることになるみたいです。
利点もあるのでしょうが、何か大変そうな気がします。
大学のセンターに入れるとすれば、かなりの仕事が8CPUもあれば十分ですので、
実際的なコストパフォーマンスが悪そうな気がします。
Re: (スコア:0)
InfiniBandには実績があります。同等の他の技術に比べオーバーヘッドが特に大きいという話もありません。
FX1のようにバリア同期やリダクション演算を行うハードウェアを付加するのも容易です。
POWER7ではCC-NUMAの実現のため高価なクロスバーチップが使われるようです。
私見ですが、京速にはオーバースペックに思えます。(ggyさんに賛成です)
富士通はクロスバー接続のVPPシリーズの経験をふまえての判断でしょう。日米で逆転現象が起きていて興味深いです。
Re: (スコア:0)
これにより耐故障性も確保しているとのこと。