Re:実用アプリケーションではどんなもんなんでしょうかね？ (#3312745) | 世界スパコンランキング2017年11月版発表、海洋研究開発機構の「暁光」が4位に

「世界スパコンランキング2017年11月版発表、海洋研究開発機構の「暁光」が4位に」記事へのコメント

記事ページを表示すべてのコメント取得

検索81コメント Log In/Create an Account

実用アプリケーションではどんなもんなんでしょうかね？ (スコア:0)

by Anonymous Coward

実際のアプリケーション走らせてみた場合，どれくらい実用的な速度で動くのか，等々が1ユーザーとしては非常に気になる所ですね．
開発環境等が揃ってないと，非常に使いにくいスパコンって感じになってしまいそうですよね．
# 2MWくらいまでなら，なんとか導入出来るっていう事業所結構多いと思うんですがね...
ところで，液浸HPCというとCRAY-2を思い出しますが，あんな感じでメンテナンスしにくい筐体なのかな...
# SPARC64VIIIfxユーザーなので，AC
- Re:実用アプリケーションではどんなもんなんでしょうかね？ (スコア:0)
  
  by Anonymous Coward on 2017年11月15日 15時34分 (#3312745)
  
  pezyにはキャッシュがなくスクラッチパッドでやるので、 SPARC64VIIIfxユーザーには発狂ものかも
  まあ、スクラッチパッドで十分なものだけを計算させるために買ったんでしょう
  
  シェア
  
  親コメント
  - Re:実用アプリケーションではどんなもんなんでしょうかね？ (スコア:3, 参考になる)
    
    by Anonymous Coward on 2017年11月15日 17時21分 (#3312825)
    
    https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc [wikichip.org]
    https://en.wikichip.org/wiki/pezy/pezy-scx/pezy-sc2 [wikichip.org]
    pezy-scのpeは2wayのインオンーダースーパースカラで、これが8wayのSMTになってゆ
    pe二つが2kbのL1D$を共有していて、ここにはレジスタスピルとか局所変数とかそういうのを置き、計算対象となる大域データはpeごとに16kbあるローカルストレージに持ってくる
    pe同士やマネジメントのmipsとの通信はL2$やLLCを経由して(明示的にLSにコピーすることにより)行う
    コヒーレントキャッシュではない
    よくできているが、間接参照には弱いと思われる
    同じスクラッチパッドマシンの太湖之光と違い、階層的な構造になっているのが面白い
    太湖之光の局所変数もスクラッチパッドに置くところは好きではない
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      16kbあるローカルストレージで8スレッド動かすってこと？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        イエース
        スレッドあたり2kb、256ワードです
        ダブルバッファリングすると、さらに減る
        ちなみに命令L1も2kbしかないです
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        命令2kbといえば512命令、ソフトウェアパイプラインが不要でコードの小さなSMTはうまくツボってます
        スクラッチパッドもベクトルレジスタのように使い、L2D$で局所性も活用できる
        さすが国産
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        ローカルストレージがレジスタファイルでPEが一つのベクトルプロセッサみたいなものなのかな？
        ダブルバッファリングはなんでいるの？L2D$が遅い？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        ・計算
        と
        ・計算結果の書き出し/次に計算するデータの読み込み
        をオーバーラップするので、ダブルバッファリングすることになります
        細かく同期する仕組みがあればバッファは小さく取れますが
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    PS3のCellとどっちが大変？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    これだけの数プロセッサで並列性を出そうと思ったら、どうせキャッシュを当てにした書き方なんてできない。
    スパコン専用CPUならこれでいいのでは？
    スパコン以外にも使うXeonとかSPARCではそういうわけにもいかないでしょうけど。
    - Re:実用アプリケーションではどんなもんなんでしょうかね？ (スコア:1)
      
      by Anonymous Coward on 2017年11月15日 23時38分 (#3313101)
      
      > スパコン専用CPUならこれでいいのでは？
      粗行列演算であるhpcgでは太湖之ヒカリなんて京の1/10以下、gpuに比べても1/3から1/4の効率になります
      pezyのランクは出ていませんが、たぶんやらなかったでしょうね
      京はノード内のランダムアクセスもインターコネクトも強力なのですが、
      pezyも太湖之光もそこは割り切って密行列に特化していると思います
      買うほうもトラックとスポーツカーくらいは違うと認識しているでしょう
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        それはその通りだけど、キャッシュと関係ある話？
        コメント付けるところを別の枝と間違えたのかな。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        間接参照は
        1. pをメモりから読む
        2. *pをメモりから読む
        という動作ですが、1はローカルにせいぜい数クロックで読めるでしょう
        2はpの指すアドレスがどこかメインメモリにあったり遠いノードのローカルメモりにあったりするかもしれないので、非常に長いサイクルがかかる可能性がある
        ということは2を大量に並列に実行して、あちこちからバラバラと読み出しデータが順不同にやってくるのが効率化になります
        「あちこちからバラバラ、レイテンシ不定で読む」というのは強力なキャッシュ＋アウトオブオーダースーパースカラでないと、データフロー同期などの特殊な仕組みがなければ性能はでません
        静的なスケジューリングとは正反対ですからね
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        そんなどこから読むのか分からないような作りだと、物理CPUが数個、100スレッドぐらいまでなら性能出ても、1000スレッド、10000スレッドでは性能でないよ。
        そもそもこういうスパコンは共有メモリではないので、アドレス指定して遠くから読むという動作自体が想定にない。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

世界スパコンランキング2017年11月版発表、海洋研究開発機構の「暁光」が4位に More ログイン

「世界スパコンランキング2017年11月版発表、海洋研究開発機構の「暁光」が4位に」記事へのコメント

実用アプリケーションではどんなもんなんでしょうかね？ (スコア:0)

Re:実用アプリケーションではどんなもんなんでしょうかね？ (スコア:0)

Re:実用アプリケーションではどんなもんなんでしょうかね？ (スコア:3, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:実用アプリケーションではどんなもんなんでしょうかね？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

スラド