くらし情報『GTC 2015 - GPUはどの程度エラーするのか?』

GTC 2015 - GPUはどの程度エラーするのか?

これは18,688個のMTBFであるので、1個のMTBFは約13万日、3.1M時間となり、K20xのfit数は おおよそ300fitと見積もられる。これはGK110チップと24個のGDDR5 DRAMを含むユニットとしては小さい値であり、信頼度が高いと言える。

NVIDIAのドライバは2回のSBE、1回のDBEの発生を監視しており、これらの事象が発生すると、そのデバイスメモリのページを切り離して使用禁止にする機能を持っている。この機能は、エラーの起こりやすいメモリセルを早期に切り離すことにより、将来のエラー発生頻度を減らすという点で、非常に有効な機能である。

次の図は、このページの切り離しの発生位置と頻度を示すものである。これも比較的一様な分布であるが、10%以上を占めるK20xがあり、これは特異である。

Off the busエラーはPCIe接続のエラーを示している。発生頻度はケージ位置の依存性が大きく、搭載位置が一番下のケージ0が最低、一番上のケージ2でのエラー発生が多い。
これはケージ2の温度が高いことが原因と考えられる。そして、熱膨張、収縮の影響を受けにくいコネクタに替えた結果、Off the busエラーは劇的に減少したとのことである。

関連記事
新着くらしまとめ
もっと見る
記事配信社一覧
facebook
Facebook
Instagram
Instagram
X
X
YouTube
YouTube
漫画家・脚本家募集LPバナー 上へ戻る
エキサイトのおすすめサービス

Copyright © 1997-2024 Excite Japan Co., LTD. All Rights Reserved.