くらし情報『GTC 2015 - Deep Learningを理解する(後編)』

2015年4月9日 16:00

GTC 2015 - Deep Learningを理解する(後編)

次の図は、第5層のTop-9パッチに対する出力である。パターンが細かいので見るのが難しいが、犬の顔など第2層よりも高次の特徴を抽出していることが分かる。

このように、初めの層では斜めの線などの低レベルの特徴を抽出し、高次の層になると前の層の特徴を組み合わせた特徴を抽出するようになり、第5層では犬やキーボードなどかなり具体的な対象に強く反応するフィルタが出てくる。

次の図のように、各層の出力にクラス判別機を入れてみると、1層目の精度は25%程度であるが、層を経るごとに精度が高まり、6層目では70%を超える精度になっている。このように、ネットワークの層の深さは重要であり、ILSVRC2014のモデルは約20層という構成になっている。

ここまでは2次元の画像の認識の話であったが、時間軸を加えたビデオの認識についても研究が行われている。このためには空間と時間を合わせた3次元の畳み込みとプーリングが必要となる。

しかし、時間をいれた処理となるので、動きの検出や将来のアクションの予測ができるようになる。


ビデオ認識の例。ローラースケートを履いたプレーヤーがかたまっているが、全体が移動していることから、ローラーダービーと正しく認識している。

関連記事
新着くらしまとめ
もっと見る
記事配信社一覧
facebook
Facebook
Instagram
Instagram
X
X
YouTube
YouTube
上へ戻る
エキサイトのおすすめサービス

Copyright © 1997-2024 Excite Japan Co., LTD. All Rights Reserved.