gm300の日記: CPU&RAM 7
日記 by
gm300
スタックに強くこだわる必要ないと思うけどな。広い意味でのSiPによる統合化はありそうだ。
やり方がこなれてくればL3,L2キャッシュもSiPの一片にすることができて、不良率が下がるかもしれない。
解説記事では説明されていないが、SiP化によるメリットには2つの可能性がある。
1)距離が短いから、遅延を小さく&信号のH/Lレベル差を小さくできる。ASIC方面から見るとあのソケットというのは信じがたい。かたくたってなんだって、現実に存在するわけだが。
2)多層基盤を使えるから、物理的なバス幅を広大に取れる。例えば128bit dataのchipを用意する。一体何chipくらいつなげるつもりなのか、chip辺りの容量をどれくらいと考えるのか不明だが、まあ可能性としてはできる。
可能性はあっても実現は難しそうだ。一番のポイントは、何chipくらい集積するかを決めるところかな。安め路線で512Mでいいなら、できそうだ。大規模サーバにもかかわらず、single chipで、16G構成でも、4GBit品があるとして、32chipだ。50umまで薄く削っても、1.6mm.結構な厚みだ。1GBit品なら6.4mm.ありえない厚み。しかも複数chipによるSMPはできない。かな?
しかしintelなら伝説のあの手で解決するのだろう。業界の流れがあまりわかっていない大学生を呼んできて、部屋に押し込んで目標だけ与えて後は勝手にやらせる。無理っぽい作業とかそういう説明は一切無し。できなくても文句言わない。首だけど。
RAMをCPUに垂直に配置して、エッジで直接CPUに接続。RAMを放熱板代わりに使う。
やり方がこなれてくればL3,L2キャッシュもSiPの一片にすることができて、不良率が下がるかもしれない。
解説記事では説明されていないが、SiP化によるメリットには2つの可能性がある。
1)距離が短いから、遅延を小さく&信号のH/Lレベル差を小さくできる。ASIC方面から見るとあのソケットというのは信じがたい。かたくたってなんだって、現実に存在するわけだが。
2)多層基盤を使えるから、物理的なバス幅を広大に取れる。例えば128bit dataのchipを用意する。一体何chipくらいつなげるつもりなのか、chip辺りの容量をどれくらいと考えるのか不明だが、まあ可能性としてはできる。
可能性はあっても実現は難しそうだ。一番のポイントは、何chipくらい集積するかを決めるところかな。安め路線で512Mでいいなら、できそうだ。大規模サーバにもかかわらず、single chipで、16G構成でも、4GBit品があるとして、32chipだ。50umまで薄く削っても、1.6mm.結構な厚みだ。1GBit品なら6.4mm.ありえない厚み。しかも複数chipによるSMPはできない。かな?
しかしintelなら伝説のあの手で解決するのだろう。業界の流れがあまりわかっていない大学生を呼んできて、部屋に押し込んで目標だけ与えて後は勝手にやらせる。無理っぽい作業とかそういう説明は一切無し。できなくても文句言わない。首だけど。
RAMをCPUに垂直に配置して、エッジで直接CPUに接続。RAMを放熱板代わりに使う。
昔 smart RAM というコンセプトがありましてな… (スコア:1)
もしかして、SIMD系命令を RAMチップ側に持たせるための布石か?!RAMチップ側にMMUを用意するのか?!
とか思ってしまいましたよ。インテルの発表を見て。
あ、あと。AS400?! とも。
fjの教祖様
Re:昔 smart RAM というコンセプトがありましてな… (スコア:1)
それってヘテロなMPの別の見方かも。CPUも分化されて一部はRAMの近くに行って一部はその中間にとどまる。
でも結局SIMDな命令がものすごく多くない限りRAM/SIMD <-> SISD CPUの間のバンド幅が全体のスループットを決めそう。
ああ、RAMも分ければいいんだ。SIMDで使うデータはそっち。そうじゃない部分はこっち。
Re:昔 smart RAM というコンセプトがありましてな… (スコア:1)
2つポイントがあって、
1. バンド幅が全体のスループットを決めるのは今に始まったことじゃない
2. SISD 側には cache がある (SIMD側にも用意してかまわないと思うが)
1はようするに、今に始まったこっちゃ無いので、性能が落ちずに全体のバランスが取れればオッケーと言うこと。別にトランジスタをどこにおくか、という問題でしかないですから。
で、その上で 2。SISD側には cache があります。なので、SIMDとSISDは衝突しない範囲で並列動作します。どこかで同期を取らなくてはいけない(でないと、SISD側が SIMD 側の処理終了を確認できない)ので、いつかは並列動作は崩れますが、それまでの間、従来のSIMD命令のように L1, L2 cache が SIMD 処理のせいで大量に flush out される事がなくなります。
どこまで「効率よく」動作するのかはいまひとつ判りませんが、データマイニング系処理は早くなる気がします。
fjの教祖様
高度に発達したCPUは (スコア:0)
SiPにするとアンプ通さなくてはいけないんじゃなかったかな? (スコア:1)
ちょこぉっとだけ気になったので。
ここは自由の殿堂だ。床につばを吐こうが猫を海賊呼ばわりしようが自由だ。- A.バートラム・チャンドラー 銀河辺境シリーズより
Re:SiPにするとアンプ通さなくてはいけないんじゃなかったかな? (スコア:1)
on die に16GByte とでも512MByteでもいいけど積むことはできない。512Mbitなら可能かも。wafer scale integration もなかなか商業的には成功しない。
できたとしたら、on die に比べて、今の方法では、アンプの分だけ、確かにSiPにすると消費電力も増え、最大到達速度も遅くなる。でもアンプは不要になるかもしれない。今の普通のアンプに比べて非常に小さい電力で充分になるかもしれない。
Re:SiPにするとアンプ通さなくてはいけないんじゃなかったかな? (スコア:1)
32nmぐらいに行けばon dieでできるんじゃないかと期待しているのですが、さてどうなることやら?
ここは自由の殿堂だ。床につばを吐こうが猫を海賊呼ばわりしようが自由だ。- A.バートラム・チャンドラー 銀河辺境シリーズより