くらし情報『GTC 2015 - GPUはどの程度エラーするのか?』

GTC 2015 - GPUはどの程度エラーするのか?

Off the busエラーは、12月以降は大幅に減少し、翌年8月以降は発生していない。これはコネクタの改造が功を奏したものである。

まとめであるが、全体としてNVIDIAのK20xは非常に信頼度が高い。18,688個使用してDBEでダウンするMTBFは7日であった。NVIDIAのドライバは個々のSBEはロギングしないので、ORNLは、ハードウェアカウンタを1日1回読み出してSBEの発生をモニタしたという。そして、このようなデータから、貴方のアプリでECCをオンにする必要があるかどうかを判断すべきである。NVIDIAはSBE以外のエラーを追跡する手段を提供しているので、常にFITやMTBFを監視しておくべきである。

Titanのような大規模システムでのエラー発生の測定は膨大な手間のかかる作業で、その結果、得られた知見は貴重である。
また、このような知見をフィードバックすることにより、より信頼度の高いシステムを作ることができるようになる。
この記事もおすすめ

関連記事
新着くらしまとめ
もっと見る
記事配信社一覧
facebook
Facebook
Instagram
Instagram
X
X
YouTube
YouTube
漫画家・脚本家募集LPバナー 上へ戻る
エキサイトのおすすめサービス

Copyright © 1997-2024 Excite Japan Co., LTD. All Rights Reserved.