GTC 2015 - Deep Learningを理解する(中編)
そして認識のコンペでは、各テスト画像に含まれている対象のカテゴリをどれだけ正しく認識できるが競われる。
2012年のILSVRCでは、次の図に示すDNNを使ったトロント大学のKrizhevskyのグループが優勝した。基本的には1989年にLeCunが提案したものと同じ考え方のDNNであるが、次の図に示すように、層の数が8層とモデルが大きくなっている。また、非線形関数としてRectified Linear Functionの採用、学習アルゴリズの改良が行われている。そしてGPUを使って処理を高速化しており、LeCunは1000画像でトレーニングを行ったのであるが、トロント大は100万枚のトレーニング画像を使って精度を高めている。
このトロント大のモデルは、65万ニューロンを使い、学習で調整するパラメタは6000万個で、2台のGPUを使っての学習には2週間を要したという。
ILSVRCの画像であるが、次の図のように、1つの対象しか写っていないものもあるが、複数の対象が写っているものも多い。しかし、全部の対象にカテゴリ名を付けるのは作業として大変であるので、1つの対象にしか正解のラベルが付けられていない。