GTC 2015 - GPUはどの程度エラーするのか?
GPUはどの程度エラーするのかについて、Oak Ridge National Laboratory(ORNL)のJim Rogers氏がGTC 2015で発表を行った。ORNLはTop500 2位のTitanスパコンを擁する研究所である。TitanはCRAYのXK7スパコンで、18,688個のNVIDIA XK20x GPUを使うシステムである。
各筐体には3段に積まれたケージがあり、それぞれのケージには8枚のブレードが搭載されている。下部にあるブロワーで空気を吹きあげて冷却しており、吸気は20.5℃で、3段のケージを冷却した排気は49℃まで上昇し得る。そして、筐体の上に設置されている代替フロンを使う熱交換器で冷却される。
各ブレードには4個のAMD 6247 Opteronと4個のNVIDIA K20xが搭載されている。そして右端に搭載されている2個のGemini LSIで3Dトーラスネットワークを構成している。
NVIDIAのK20x GPUボードにはGK110チップが使われている。演算クラスタであるSMXはチップ上に15個存在するが、1個の不良を許容するため、使えるのは14SMXという仕様になっている。