静止物体や顔認識から“動き”の認識へ
NTTコミュニケーションズ株式会社(NTT Com)は7日、これまで静止画を対象としていたディープラーニング技術から、さらに一歩進んだ、時系列データの解析を行うことができる「時系列Deep Learning(ディープラーニング)」技術を開発したと発表した。映像データから、人間の動作を高精度で識別し、検知できるという。
人工知能(AI)の開発分野では、その重要要素であるディープラーニング技術が発展し、静止した物体や人間の顔などに対する認識の精度は飛躍的に向上した。一方で、人の動作といった動きのある映像、連続した時間的変化を対象とした認識、高精度での解析は、まだ困難な段階にある。
そうしたなかで、現代は監視カメラなどのネットワークカメラが普及し、収集可能な映像データは増大してきているほか、カメラや複数のセンサー機器を搭載し、ネットワーク接続するIoTも今後さらに増加、普及すると見込まれている。よって、現在はまだ低いレベルにある映像ビッグデータの解析精度を向上させる技術があれば、さまざまな領域で活用できるものと期待される。
防犯や作業現場での異常検知、購買行動分析、スポーツのプレー分析などで注目
こうして開発されたのが、NTT Comの「時系列Deep Learning」で、この技術では、従来の各画像縦横2次元データをもととした学習・認識スタイルから、学習時および検知時における時間軸方向の情報もデータとして取り込むスタイルとし、3次元化することで、高精度の動作認識を可能としている。
流れる映像をコマごとの静止画に分解し、1コマにおける分析対象範囲内のピクセルに加え、近い時間軸のコマにおける範囲内ピクセルに対しても局所結合を行う。また画像だけでなく、時系列で変化する温度や電圧などのIoTセンサー情報データにおける高精度な解析も可能であるため、汎用性に優れるという。
実際にこの技術を用いて、ネットワークカメラなどで撮影した人間がいる映像に対し、「しゃがんでいる」、「きょろきょろしている」、「ものを置いている」といった数種類の動作で認識検証実験を行ったところ、約85%の精度で正答するという結果が得られたそうだ。
NTT Comでは、「時系列Deep Learning」技術を、防犯や工場など作業現場における異常検知、購買行動分析といったマーケティング領域、スポーツのプレー分析など、さまざまな領域に活用できると見込み、多用途での映像データ解析を可能とする「映像解析プラットフォームサービス」(仮称)の提供を検討している。
また今後の展開として、映像データだけでなく、多様なIoT端末から収集されたセンサーデータ、端末ログなどを統合的に分析し、より高度な解析を行えるようにして、応用範囲を拡大、新たなビジネス創出につなげていきたい方針も示した。
(画像はプレスリリースより)

NTTコミュニケーションズ株式会社 プレスリリース
http://www.ntt.com/release/monthNEWS/detail/20151007