GTC 2015 - GPUはどの程度エラーするのか?
GK110の各SMXは256KBのRegister File、64KBのL1キャッシュ、48KBのRead only Cacheを持ち、14SMXに共通の1.5MBのL2キャッシュを持つ。そしてボード上に6GBのデバイスメモリが搭載されている。デバイスメモリは24個の2GビットのGDDR5 DRAMで作られている。そして、これらすべてのメモリは、1ビット誤りを訂正する機能を持っている。
K20xは次の表にまとめられたエラーを検出することができる。そして、ECCで訂正可能な1ビットエラー以外のエラーの場合は、アプリケーションに継続不能な障害が発生したとみなす。
次の図は1ビットエラー(SBE)が検出された筐体の位置を示す。赤丸の大きさは、発生頻度に比例している。
このデータは2012年から2014年8月までの結果で、約600万回のSBEを含んでいる。
この図に見られるようにSBEの発生場所は一様ではなく非常に偏っている。18,688台のK20xの内の899台だけでSBEが発生しており、大部分のK20xではエラーは発生していない。全体で約600万回のSBEが起こっているが、右の小さなグラフに示すように、その98%は10台のK20xで発生している。