くらし情報『GTC 2015 - 東大/筑波大のTightly Coupled Accelerator「TCAの性能編」』

GTC 2015 - 東大/筑波大のTightly Coupled Accelerator「TCAの性能編」

このため、TCAではPEACH2を使う転送はPEACH2と同じCPUに接続された2台のGPUに限定している。

MPIの通信は、1対1の通信だけでなく、全ノードからデータを集めて結果を全ノードに広報するAllgatherや全ノードの結果の合計などを計算し、その結果を全ノードに広報するAllreduceなどの集合通信と呼ばれるものがある。

次の2つの図は、AllgatherとAllreduceの実行時間を示すもので、データの集め方、広報の仕方としてRing、Neighbor Exchange, Recursive doubling、Disseminationの4種のアルゴリズムを使った場合とMPIを使った場合を比較している。そして、ノード数が2、4、8、16の場合の測定を行っている。

Allgatherで集めるデータは128KBとしており、Recursive Doublingが良い結果を出しているが、16プロセスの場合はMPIの方が多少速いという結果になっている。

Allreduceは8Bのデータを全ノードから集めて、合計などを計算している。この操作はレーテンシが効く操作で、MPIに比べてPEACH2の方が速い。

関連記事
新着くらしまとめ
もっと見る
記事配信社一覧
facebook
Facebook
Instagram
Instagram
X
X
YouTube
YouTube
漫画家・脚本家募集LPバナー 上へ戻る
エキサイトのおすすめサービス

Copyright © 1997-2024 Excite Japan Co., LTD. All Rights Reserved.