NVIDIA の研究者チームが敵対的生成ネットワークで人間並みのイマジネーションを実現
想像してみてください。飼い犬のラブラドールのように嬉しそうに笑うライオンや、飼い猫のように神経質な薄笑いを浮かべた虎の顔を。このような突飛な発想は、創造力豊かな人間の記憶をもってすればなんてことない作業ですが、コンピューターにとってはものすごく難しいことでした。「GANimal」が登場するまでは。
NVIDIA の研究者チームは、ある動物の画像を認識し、その表情とポーズを別の動物の顔で再現できる十分な知能をコンピューターにもたらす新たな AI 技術を確立しました。この研究の成功要因の 1 つは、2 つのニューラルネットワークを互いに競い合わせる「敵対的生成ネットワーク (GAN)」と呼ばれる最先端 AI 技術を採用したことです。
その機能は、GANimal アプリで実際に試してみることができます。飼い犬や飼い猫の画像を入力すると、その表情とポーズが、リカオン、エジプシャン マウ、シーズー、ユキヒョウ、ナマケグマといった、さまざまな動物や品種に反映されて表示されます。
筆者も息子の愛犬であるゴールデン ラブラドール風ミックス犬、デュークの画像を使って試してみました。私のお気に入りは、デュークのとぼけた笑顔を持った黒い瞳のオオヤマネコです。
もちろん、本格的な用途への応用も期待できます。たとえば映画製作会社なら、犬がスタントを行っているシーンを撮影すれば、AI を使ってその動きをもっと扱いにくい虎などの動物に当てはめることができるようになる日が来るかもしれません。
研究者のチームは、韓国のソウルで開催される International Conference on Computer Vision (ICCV) で、この研究論文を発表しました。このイベントは、コンピューター ビジョン分野の研究者を対象とした 3 つの重要な会議の 1 つです。
この論文は、研究者たちが「FUNIT」と呼ぶアルゴリズムについて説明するものです。FUNIT とは、「Few-shot, UNsupervised Image-to-image Translation」の略で、テスト段階で数枚のサンプル画像だけを使って指定された未知のターゲット クラスを処理できます。
FUNIT の立役者として NVIDIA のチームでコンピューター ビジョンの主任研究員を務めるミンユウ リュウ (Ming-Yu Liu) は、「GAN ベースの画像変換ネットワークは、単一タスクを解決するためのトレーニングが行われているものが大半です。たとえば、ウマをシマウマに変換するといったものです」と述べ、次のように説明します。
「このケースでは、多数の変換タスクをつなげて解決するようネットワークをトレーニングします。各タスクは、ターゲットの動物のサンプル画像を数枚使って、ランダムなソースの動物画像をランダムなターゲットの動物画像へと変換するというものです。さまざまな変換タスクを解決する練習を行うことで、最終的にネットワークは既知の動物を未知の動物に変換する一般化を学習するようになります。」
この研究を行う前は、画像変換用ネットワーク モデルのトレーニングにターゲットの動物画像を大量に使う必要がありました。しかし今後は、任意のターゲット画像 1 枚でこの処理が可能になります。これは、同チームが GAN プロセスに加えるさまざまな画像変換タスクを含むトレーニング機能のおかげでもあります。
この研究は、人間のような想像力をニューラル ネットワークに組み込む方法を見つけるという、リュウの包括的目標における次のステップであり、「私たちはこのように新たな種類の問題を解決することでテクノロジと社会の発展に寄与しています」と、リュウは言います。
NVIDIA の 200 名を超える研究者の中から 7 名が参加する同チームは、新しい FUNIT ツールを拡張してより多くの画像をより高い解像度で取り込むことを目指し、すでに花と食べ物の画像を使ったテスト段階に入っています。
GAN におけるリュウの研究は、簡単なスケッチをフォトリアリスティックな芸術作品へと変換する AI ツール「GauGAN」の発表によって今年すでに脚光を浴びました。
GauGAN ツールは、早くも 100 万枚を超える画像の生成に使われています。AI Playground では、GauGAN のデモを直接体験いただけます。
ICCV のイベントでは、リュウが 3 回の講演と 1 回のポスター セッションで計 4 本の論文を発表しました。ほかにも、論文セッションで司会を務めると共に、NVIDIA の最新 GPU で Tensor コアをプログラミングする方法についてのチュートリアルを行いました。