分岐予測についてはNeural Net Predictionのところに触れられていますね。「学習結果に基づく」ところはその2項目目のところがそうなのでしょう。分岐命令をフェッチしたらストールしないようにすぐに判断して予測先の命令コードを読み込まなければなりませんが、予測の当たりはずれから学習する方はそれほど(特に学習回路がパイプライン化されていれば)慌てる必要はないので、時間的に幾らか余裕はあるかと思います。但し、大規模にすると電力効率が落ちたりは面積を食ったり学習に時間がかかったりするので程々のものだと思いますが(単層パーセプトロンとか。)PS4で既に原形があったようです。
キャッシュレイテンシについて補足 (スコア:4, 参考になる)
4gmaer のレビューでは、
> L2キャッシュを超える「4MB Range」以降で,Ryzen 7 1800Xの遅延状況が際立って悪化していることだ。
> FX-9590より遅いというのは異常であり,正直,「キャッシュアクセスやメモリアクセス周りの最適化が十分でない」可能性が
> 極めて高いのではないかと危惧しているが
で終わってしまっていますが、PC Watch のレビューでは補足があり
> AMDによるとSandraやAIDA64などのベンチマークソフトでは、ZENマイクロアーキテクチャのキャッシュ帯域を適切に
> 測定できないとしており、独自に測定した結果が案内された。
ということで(どういう理屈かわかりませんが)正しく計測すれば L2、L3 キャッシュともに Ryzen の方が早いと主張しています。
(ただまぁその後の Fallout 4 ベンチで負けている点、メモリ周りで何か問題があるのかもしれませんが)
しかしタレコミの
> ここ10年のAMDには買いたいチップがない、という状況だったので、次はどちらにするか選ぶ楽しみができるのではないだろうか。
には反論したい。
ハイエンドでは確かにそうですが、少なくともロー~ミドルの APU は、dGPU を使わず省スペース、低価格で組む人間には最適でした。
実家のマシン 2 台は AMD APU ですが、RavenRidge(ZEN 世代 APU)が出れば切り替える予定です。
Re:キャッシュレイテンシについて補足 (スコア:4, 参考になる)
>「キャッシュアクセスやメモリアクセス周りの最適化が十分でない」可能性が
現在ではBIOSの更新で最適化され20%近く改善されたという話でとりあえず一段落していて
SandyBridgeのマザーのようにリコール発生というような事態にはならないみたいだね
ZEN世代APUにはVegaが導入される予定で出るのは速くても来年という話もあるし
Ryzen5が夏あたりでRyzen3が冬で
このRyzen3がAPUとして導入されるって話もあるし
今後の展望が今一ハッキリしてないところを見ると
Ryzen7と5で手一杯でAPUには手がまわらない状態なのかもしれないし
Ryzenを印象付ける為のサプライズを用意してるのかもしれない
さてどっちだろうか
Re:キャッシュレイテンシについて補足 (スコア:4, 興味深い)
Ryzenは4コアL3キャッシュ8MBで1モジュールだから
8コア全てがL3キャッシュを共有していないなのでモジュールを跨ぐとレイテンシが悪化する。
代わりに4コアでクロスバー接続だからリングバスのintelよりもモジュール内でのレイテンシは低いらしい
これは実際どうなのかはわからないけど
Re:キャッシュレイテンシについて補足 (スコア:1)
ということで(どういう理屈かわかりませんが)正しく計測すれば L2、L3 キャッシュともに Ryzen の方が早いと主張しています。
intelとAMDではCPUのキャッシュの実装が大きく異なっている。Zenはいつも以上に複雑。要するにAMDがよく言ううちの製品に最適化すれば速いってやつ。もっと言うとうちの製品に最適化したベンチを出すよってこと。今回は8MB以上のキャッシュ容量をターゲットにすればひとまず相当速くなりそうだけど。まあ語るも涙聞くも涙のAMDですな。昔からAMDのほうは設計図上回路を小さくケチケチ作ってるんだけど製造面で不利なんだからしょうがないよね。CPUの構造は各社個性的で面白い。一番極端なのはたぶんSiSのオラクル。
AMDがパソコン向けに6万円台の製品を投入できるだけの自信を持てたのは久しぶりだしRyzenは実際intelの中・上位モデルと殴りあえる製品になってるわけで感慨深いな。Ryzenが売れればOpteron向けを転用した16コア32スレッドとか出るかもしれないし。値段が高めのCPUを買う人がintelとAMDで悩んでるのは久しぶりだろ。信者はどっち買うか決まってるからどっちの信者も悩んでないんでしょうけど。
Re:キャッシュレイテンシについて補足 (スコア:1)
今回のZenでは、ニューラルネットワークをCPU内に適用して、コード実行やプリフェッチに関わる挙動を、動的にアップデートされてる機械学習の結果で制御してるようなので、今までの汎用CPUよりは、柔軟性が高くなると思いますけどね。
ひょっとしたら、OS毎や使用目的毎にマイクロコードの一部を変更することで最適化を仕掛けることすら、顧客がコストを払うならばやってくるかもしれないですよ。
例えば、WEBサーバとアプリケーションサーバと、仮想化ホストサービスで、同じブレードサーバでもマイクロコードを変えたりとか、ホストOSがWindowsかLinuxかで、これまたマイクロコードを変えてきたりすることで、それぞれに適した学習結果を導き出そうとしてくる可能性すらある。
Re: (スコア:0)
ニュートラルネットワークによる学習は新しいものではないしAMDだけのものでもない。マイクロコードの個別変更による最適化は今でもやってるがマイクロコードによる最適化って重いんだよね。そもそも今のAMDは金を出せばマイクロコードレベルよりしたの回路設計で対応してくれる。あとAMDのCPUに搭載された機械学習機構はでんげんがおちるとりせっとされるみたいだね。
http://pc.watch.impress.co.jp/docs/column/kaigai/1036983.html [impress.co.jp]
Re: (スコア:0)
>ニューラルネットワークをCPU内に適用して、コード実行やプリフェッチに関わる挙動を、動的にアップデートされてる機械学習の結果で制御してる
これってどこの情報ですか?本当ならソースお願いしたいです。
ISSCCの発表では分岐予測にDNNを使った発表がありましたが、こちらは事前に学習したものを使って、CPU内でInferenceだけ動作しているようでしたが。
Re: (スコア:0)
microcode領域をかなり大きくして限定的コードモーフィングみたいなことをやるってこと?
Re:キャッシュレイテンシについて補足 (スコア:1)
今回のRyzenでは、キャッシュの先読みにニューラルネットワークを応用した学習機能を持たせてるようで、ある程度コードを走らせ続けると、学習結果に基づく予測でプリフェッチ元を決めてるようなんですよね。
http://www.amd.com/en-gb/innovations/software-technologies/zen-cpu#neuralnet [amd.com]
当然、ハードウェアだけでは実現できないでしょうから、マイクロコードのアルゴリズムや重み付け変数のチューニングで、伸びしろが相当あったということじゃないですかね。
流石に、ここから更に、今の50%分パフォーマンスを上げるとかいうのは難しいでしょうけど。
Re: (スコア:0)
そのページに
「学習機能を持たせてる」とか
「 ある程度コードを走らせ続けると、学習結果に基づく予測でプリフェッチ元を決めてる」ということは
書いてありますか?
Re: (スコア:0)
・ Builds a model of the decisions driven by software code execution [amd.com]
・ Learning algorithms that predict and pre-load needed data for fast and responsive computing. [amd.com]
Re: (スコア:0)
分岐予測についてはNeural Net Predictionのところに触れられていますね。「学習結果に基づく」ところはその2項目目のところがそうなのでしょう。分岐命令をフェッチしたらストールしないようにすぐに判断して予測先の命令コードを読み込まなければなりませんが、予測の当たりはずれから学習する方はそれほど(特に学習回路がパイプライン化されていれば)慌てる必要はないので、時間的に幾らか余裕はあるかと思います。但し、大規模にすると電力効率が落ちたりは面積を食ったり学習に時間がかかったりするので程々のものだと思いますが(単層パーセプトロンとか。)PS4で既に原形があったようです。
Re: (スコア:0)
>当然、ハードウェアだけでは実現できないでしょうから、
パーセプトロンって黎明期はむしろ回路でガチ組み実装してませんでしたっけ?
ソフトウェア実装の方が後から出てきた発想だったように思います。
役割上、速さを求められる部分なのでマイクロコードなんかを咀嚼している暇は無いかもしれません。
むしろ最初期の発想に立ち返ってアルゴリズム部分に関しては、ほぼほぼハードウェア実装したんじゃないかな?と想像しました。
Re: (スコア:0)
妄想を何回も書く必要ってあるんですか?
Re: (スコア:0)
「ハードウェアだけでは実現できないでしょうから、マイクロコードの…」は何とも言えませんね。そこまで大規模にやると分岐ごと(数命令に1つは分岐がでてきてもおかしくはない)に計算リソースを食って命令の実行の妨げになりそうだし、ハードウェア(電力的に有利だけど面積的に不利なので小規模)でやってる気がしますが…重み付けの最適化速度(学習速度)等は恐らく調整できると思います。
入力は該当の分岐命令の過去の分岐履歴や直近の分岐命令の履歴とかなんでしょうけど、他にも何か入力しているのかな…上位アドレスのハッシュとかスレッドのIDとか(
Re: (スコア:0)
A10神がPCにも!と一人で喜んでました
Re: (スコア:0)
省スペースPCには現行のAPUはちょっと発熱が大きいと思うけどね
その辺に使うのってGPUよりも発熱対策の方が大事
TDB 65Wあたりだと薄型クーラーは使いにくいよ
IntelのT付と同等のTDB 35Wあたりのが出てきたら考えるけど
で、次のAPUはHDCP 2.2に対応できるのかな?(使わないけど)
Re: (スコア:0)
TDBじゃなくてTDPな。
APU は Configurable TDP で出てくると思う。