NVIDIA GPU、Flickrに登録された何千万枚もの写真を分類

by Brad Nemire · July 15, 2015

世界最大の写真共有サービス、Flickrにはあらゆる種類の写真が並んでいます。110億枚以上ものこのような写真を、自動的にFlickrは、画像認識テクノロジで分類できるようになりました。

画像認識のタスクを専門家がどう
捉えていたのかを示す漫画（出典：
XKCD、Some rights reserved）

これが「Magic View」と呼ばれる機能です。魔法のようだと思われるかもしれませんが、実際、魔法に近いと言えます。写真の分類はとても難しいタスクなのです。あまりに難しくて、最近まで、コンピュータには無理だと思われていました。そのタスクを、Flickrでは、GPUによって実現しました。処理はあっという間に終わります。しかも膨大な量の写真。

ディープラーニングという魔法

「Magic View」を支えている魔法は、ディープラーニングという、最近、すごい勢いで進歩しているテクノロジです。ディープラーニングでは、ニューラル・ネットワークによってコンピュータを教育し、人間に近い精度を実現します。

ディープ・ニューラル・ネットワークは、いま、何百万人もの人々が日々利用するタスクに活用されています。画像分類や音声認識、自然言語処理といった作業です。

そのいい例がFlickrというわけです。Flickrでは、主だった映像概念を識別できるよう、NVIDIA GPUによるニューラル・ネットワークを訓練しました。NVIDIAのGPUは、このようなタスクに最適です。GPUにはコンピューティング・コアが何百個もあるので、ふつうなら何カ月もかかる処理をスピードアップしてわずか数週間で終えることができます。数日まで短縮できることさえあります。

Flickrでは、いま、モデルのトレーニングに1500万枚もの画像を使っています。これでも、Flickrに保存されている画像の量に比べたら微々たるものにすぎません。保存されている画像すべてを使ったトレーニングも可能なわけで、いまはまだ、最初の一歩を踏みだしたにすぎないわけです。

Flickrがディープラーニングに取り組みはじめたのは、社員6人で高度な画像認識を推進するスタートアップ企業、LookflowをYahooが買収した2013年のことです。LookFlowは、その4年前にサイモン・オシンデロ氏とボビー・ジャロス氏が立ちあげた企業で、そのLookflowが、写真の自動タグ付けにFlickrが使っているテクノロジを開発したのです。

Flickr刷新の中核を担う「Magic View」

いま、サイモン氏はFlickrのAIアーキテクトとして働き、ボビー氏はYahoo Labsでディープラーニングの研究をリードしています。先月、Flickrの刷新が発表されましたが、その鍵をにぎる機能のひとつが、LookFlowの製品――いま、「Magic View」として知られている製品――です。

サイモン氏はこう説明しています。「ここでは、GPUを活用した機械学習が大きな役割を果たしています。特に、大規模なモデルを訓練したり、モデル・アーキテクチャの可能性を探るといったことを相応の時間で行う場合に役立ちます。自動タグ付けに使うニューラル・ネットワークの訓練をGPUなしで行うのはまず考えられませんし、推進中の他のプロジェクトについてもGPUに頼っているものが少なくありません。」

「Magic View」は、どういう写真なのかをFlickrの画像認識テクノロジで判断し、60以上のカテゴリに分類します。写真は全部で110億枚もありますから、作業量は膨大です。Flickrのモバイル・アプリ（iOS用とAndroid用）やデスクトップ・マシンのアップローダー、ウェブサイトから新たにアップロードされる写真のタグ付けも自動で行います。下のアニメーションGIFを見れば、その雰囲気がおわかりいただけるはずです。

これはなかなかの機能で、精度もすばらしい。しかし、間違うこともあります。残された課題は、精度と検索利便性とのバランスをどう取るのかとういことです。画像にタグが付けられない場合とまちがったタグを付けてしまう場合は、トレードオフの関係にあるからです。

ユーザはまちがっているタグを削除することができます。これも入力データとして活用し、アルゴリズムの精度を高めていきます。つまり、Flickrのテクノロジはだんだんと精度が高まっていくのです。

海岸で撮った夕日の写真に対する自動タグ付けの例

サイモン氏は、今後の機能についてはノーコメントとして答えてくれませんでした。ただ、Flickrのチームではモバイル・プラットフォームにもっと機械学習を活用しようとしている、もっと大量の画像を使って優れたモデルのトレーニングを進める、GPUを使って推進するというお話はありました。

新たな魔法が続々登場

サイモン氏からは、次のようなコメントももらいました。「自動タグ付けのように単純なものではなく、もっとすごい画像処理機能を年内にロールアウトする予定です。自動タグ付けシステムについては、モデルが処理できる概念の種類を増やしていきますし、すでに使っている概念の精度やカバー範囲についても改善していきたいと考えています。」

「Magic View」の詳細にはついてはこちら、また、他の機能についてはFlickrのブログをご覧ください。

トップの掲載写真：Flickrに登録されたPaul Reynoldsの写真。Some rights reserved