Microsoft、GPUの活用で画像認識システムの記録を更新

有数の画像認識ベンチマーク、ImageNetで、Microsoftが記録を更新しました。GPUによる成果です。

Microsoftのシステムは、昨年対比で、Top 5のエラー率を半減させることに成功し、あらかじめ定められた1000カテゴリの画像について96％以上の確率で正しく分類したのです。システムは従来の5倍近くも深い152レイヤのニューラル・ネットワークとなっています。

このブレークスルーが実現したのは、GPUによるパワフルなニューラル・ネットワークの構築に端を発した人工知能ルネサンスが進んでいるからです。つい最近までは、最先端システムであっても、写真に写っている鳥を認識するといったごく簡単な画像認識タスクをなかなかこなせずにいました。

さらなる追求

時代は変わりました。新しいニューラル・ネットワーク・アルゴリズム、大量に集積されたデータ、パワフルなGPUが一体となったからです。その結果、「ディープラーニング」と呼ばれる革命です。写真はもちろん、動画さえも、人間以上に精度よく認識するシステムが生まれようとしています。

GPUを使うと、少ない台数のサーバでディープラーニングのトレーニングを高速に処理することができます。だから、トレーニング・モデルの構築、最適化のスピードが上がり、最終的には高精度のディープラーニング・アプリケーションが開発できます。

新記録

そして、いま、各種ベンチマークで優れたパフォーマンスをたたき出せるシステムを開発しようと産官学の研究者がしのぎを削っています。

その最新ブレークスルーがMicrosoftというわけです。Microsoftの北京研究所が記録的な152レイヤのニューラル・ネットワークを構築し、ImageNetの主要ベンチマークふたつ、すなわち、LocalizationとDetectionにおいて最高得点をマークしたのです。

もうひとつの有名ベンチマーク、Microsoft Common Objects in Context（MS COCO）でも、Microsoftチームは、画像の検出・分割で最高の結果をたたき出しました（MS COCOはMicrosoftが始めたものですが、いまは学会系の独立機関が管理しています）。

Microsoft Researchでは、先日オープンソース化したディープラーニング・フレームワーク、CNTKを用い、ImageNetに関するディープラーニング結果を改善できないか研究を進めています。CNTKとAzure GPU Labの組み合わせは、Microsoft社内の音声認識タスクを従来の10倍に高速化したそうです。

人間を超える

画像認識は、GPUによるディープラーニング関連で一番注目を集めている分野です。画像の認識精度で人間を超えることを究極の目的に、長年にわたる研究が行われてきました。

この点については、今年すでに達成することができました。Microsoft Researchが人間以上の精度を誇る画像認識システムを発表したのです。

ただ、画像認識というのは、さまざまな機械学習アプリケーションのひとつにすぎません。GPUは音声認識にも欠くことができません。Microsoftは、Skype Translatorのリアルタイム翻訳でもこの技術を活用しています。