GTC 2015 - GPUはどの程度エラーするのか?
このSBEであるが、エラー頻度の高い10台のK20xでは、その99%がL2キャッシュのエラーである。一方、この10台以外ではSBEの94%はデバイスメモリのエラーであり、L2キャッシュのエラーは6%に過ぎない。
また、L1キャッシュ、レジスタファイル、Read onlyキャッシュでは、SBEは発生していない。
2ビットエラー(DBE)の発生位置の分布は、SBEと比べると、一様に近い分布となっている。2013年6月1日から2015年2月28日までにDBEは91回しか起こっておらず、その25%は6台のK20xで発生している。
また、右側のパイチャートに示すように、DBEの86%はデバイスメモリ、14%はレジスタファイルで発生している。レジスタファイルの総容量は256KB×14=3584KBであり、1536KBのL2キャッシュの2.3倍のサイズである。従って、レジスタファイルのDBE発生が2番目となるのは理解できるが、容量から見てL2キャッシュも6%位になるはずであるが、1回もエラーが発生していないのは、単なる偏りかも知れないが、何か原因があるのかも知れない。
DBEが発生するとアプリはフェイルとなるので、DBEが原因のTitanのMTBFは7日となっている。