2015年9月2日 11:00
Hot Chips 27 - 中国Phytiumの64コアARMv8サーバプロセサ「Mars」(中編)
ホップあたりの遅延は3サイクルでルーティングセルあたりのバンド幅は384GBとなっている。但し、これは6ポートのIn/Outの合計と考えると、1リンクでは32GB×2ということになる。
○Cache and Memoryチップ
CMCチップは16MBのL3キャッシュと2チャネルのDDR3 DIMMチャネルを集積している。従って8個のCMCチップの合計では128MBのキャッシュを持つことになる。次の図ではDDR3-800となっているが、これはDDR3-1600の間違いで、CMCあたりのメモリバンド幅は25.6GB/sとなる。CMCとCPUチップの接続は高速シリアル伝送ではなく、独自の並列伝送のインタフェースを使っている。シリアル-パラレル変換の時間ロスが無く高速というのが理由であるが、信号だけでも1024本であり、グランドの接続を含めると1500~2000ピンが必要となる。この接続が、Marsチップ全体で3000ピンを必要とする主因になっていると考えられる。
○メモリアクセスのバンド幅とレーテンシ
ローカルのL1キャッシュをヒットした場合は2サイクル、ローカルのL2キャッシュヒットは8サイクル、同一パネルの他方のL2キャッシュのヒットは20サイクル。