GTC 2015 - 東大/筑波大のTightly Coupled Accelerator「TCAの性能編」
一般に、プロトコルのオーバヘッドがあるので、データサイズが小さい場合はバンド幅は低く、データサイズの増加とともに増えて行く。そして十分データサイズが大きくなると、ハードウェアの転送能力などで決まる値で飽和するという特性を示す。
CPU間のDMA転送の場合は、3.5GB/sで飽和しており、これはPCIe2.0の理論値の95%のバンド幅であり、十分高速である。GPU間の場合は最大では2.8GB/sとなっているが、何故か最大データサイズでは2.5GB/sに低下している。ここでも1MB以下のデータサイズではMVAPITCH2-GDR2.0より速いと述べているが、Panda先生の発表では、最新のGDR2.1aでは性能を2.2倍に向上させ4KBのサイズで2.9GB/sが出ていた。このあたりはなかなか厳しい戦いである。
なお、DMA(QPI、GPU)というカーブがあるが、これはQPIを通してPEACH2が接続されていない方のCPUに接続されたGPUにデータ転送を行った場合の特性で、300MB/s程度で飽和しており、使い物にならないほど遅い。また、その上のDMA(SB、GPU)はCPUに内蔵されているPCIeスイッチを経由して、同一CPUに接続されたGPU間をDMA転送した場合の特性で、QPI経由よりはかなり良くなっているとは言え900MB/s程度で、これも十分な性能が得られない。