Cortex-A15比で最大3.5倍の性能向上はどのように実現しているのか? - ARM、Cortex-A72の詳細を公開
先に書いたとおり、3つのARM命令が5つのMicroOpsの形で実行されることになり、これによる効率改善がCortex-A57からの大きな性能ブーストの一因と思われる。ただここでも細かく無駄を省くことで、性能改善と省電力化を両立したとしている。
さて、いよいよ実行ユニットである。Photo09では5つの実行ユニットが並んでいるが、実際は
Single Cycle ALU:2ポート
Branch:1ポート
Multi Cycle ALU:1ポート
NEON/FPU:2ポート
Load/Store:2ポート(Load×1、Store×1)
という構成になっている。ちなみに各々の実行ユニットのLatencyも大幅に改善されており、例えばFADDは4cycle→3cycle、FMULは5cycle→3cycleなので、FMAC(Multiply and Add)では9cycle→6cycleになる計算だ。ALUについても細かく性能改善が行われており、トータルで性能改善とあわせて省電力化が進められたとする。
Load/Store UnitとL2に関しても性能改善が図られており、特に性能を落とさずに省電力化がずいぶん進められたとする(Photo10)。