くらし情報『GTC 2015 - 東大/筑波大のTightly Coupled Accelerator「TCAの性能編」』

GTC 2015 - 東大/筑波大のTightly Coupled Accelerator「TCAの性能編」

集めるアルゴリズムとしてはDisseminationが最も速いという結果となっている。

そして、次の2枚の図は、QUDAという格子色量子力学のライブラリを使った処理で、マルチGPUのノードで、CG法を使って連立1次方程式を解いている。2~16ノードの範囲で、ノードの配列を変えて、MPIによるP2P(Peer-to-Peer)通信、MPIのリモートメモリアクセスとTCAを使った場合の所要時間を棒グラフにしている。

上側の16の4乗という大きいモデルでは4ノードではMPIとTCAの性能はほぼ拮抗しているが、8ノード以上になるとTCAの方が多少速いという結果になっている。下側の8の4乗のモデルではTCAの方が明らかに速く、(2,4)ノードの場合、MPI-P2Pの1.96倍の速度となっている。
まとめとして、TCAによりアクセラレータを直結するテクノロジの有効性を確認した。具体的には、PEACH2により最大3.5GB/sと理論性能の95%に達するバンド幅が得られ、小さいデータではCPU間のPIOでは0.8μs、GPU間のDMAで2.0μsと短い遅延が得られた。集合通信ではAllgatherではあまり効果が見られなかったが、AllreduceはMPIの半分程度の時間で行うことができた。

関連記事
新着くらしまとめ
もっと見る
記事配信社一覧
facebook
Facebook
Instagram
Instagram
X
X
YouTube
YouTube
漫画家・脚本家募集LPバナー 上へ戻る
エキサイトのおすすめサービス

Copyright © 1997-2024 Excite Japan Co., LTD. All Rights Reserved.