GTC 2015 - GPUはどの程度エラーするのか?
これは18,688個のMTBFであるので、1個のMTBFは約13万日、3.1M時間となり、K20xのfit数は おおよそ300fitと見積もられる。これはGK110チップと24個のGDDR5 DRAMを含むユニットとしては小さい値であり、信頼度が高いと言える。
NVIDIAのドライバは2回のSBE、1回のDBEの発生を監視しており、これらの事象が発生すると、そのデバイスメモリのページを切り離して使用禁止にする機能を持っている。この機能は、エラーの起こりやすいメモリセルを早期に切り離すことにより、将来のエラー発生頻度を減らすという点で、非常に有効な機能である。
次の図は、このページの切り離しの発生位置と頻度を示すものである。これも比較的一様な分布であるが、10%以上を占めるK20xがあり、これは特異である。
Off the busエラーはPCIe接続のエラーを示している。発生頻度はケージ位置の依存性が大きく、搭載位置が一番下のケージ0が最低、一番上のケージ2でのエラー発生が多い。
これはケージ2の温度が高いことが原因と考えられる。そして、熱膨張、収縮の影響を受けにくいコネクタに替えた結果、Off the busエラーは劇的に減少したとのことである。