GTC 2015 - Deep Learningを理解する(前編)
GTC 2015において、Facebookの研究者であるRob Fergus氏が「Visual Object Recognition Using Deep Convolutional Neural Networks」と題する発表を行った。この記事はFergus氏の発表を中心にしているが、ImageNet関係の情報などを筆者が補足しており、発表に含まれない情報も入っている。
なお、このFergus氏の発表は大人気で、室内の椅子は満席、さらに床に座り込んで聞く人で空きスペースは無く、それでも室内に入れず、ドアの近くに立って覗き込んで聞く人がいるという状況であった。
Deep Neural Network(DNN)の歴史を振り返ると、1989年のLuCunの業績が大きな転機になっている。LeCunは手書きの郵便番号の認識のために、次の図に示す多層の人工ニューロンのネットワークを使った。
最初の層は、近接した領域のピクセルのデータを畳み込むConvolutionを行う層があり、最後の3層でConvolution層での部品の認識結果を総合して対象を認識する構造になっている。その中の最後のOutput層は0~9の数字それぞれの確度を出力するための10個のニューロンで構成されている。