Generative Adversarial Network とは――トップ研究者が解説

投稿者: Jamie Beckett

ディープラーニングの業界で今もっともホットな話題である Generative Adversarial Network は、一般に「GAN」と呼ばれており、省力化しながらより多くのことを学習できるシステムの開発につながる可能性があります。

2014 年に GAN を発案したイアン グッドフェロー (Ian Goodfellow) 氏のお話を聞いてみましょう。当時、彼はまだモントリオール大学で博士課程の学生でした。現在 Google の研究科学者を務める同氏は、先月開催された GPU テクノロジ カンファレンス (GTC) において熱心に聞き入る聴衆を前に、GAN のしくみと理由を解説しました。

GAN は、AI――特にディープラーニング――の進化にとってきわめて大きな障害となる「膨大な手作業の必要性」を解消するものです。

Generative Adversarial Network: 「この 10 年間でもっともおもしろいアイデア」

Facebook の AI 研究所所長である AI の先駆者、ヤン ルカン (Yann LeCun) 氏は、GAN を「機械学習において、この 10 年間でもっともおもしろいアイデア」と形容しました。

通常、ニューラル ネットワークは、たとえば猫の写真を認識するための学習を行う場合、何万枚もの猫の写真を分析することになります。しかし、それらの写真をネットワークのトレーニングに使うためには、各画像に写っているものに人が慎重にラベルを付けていく必要があり、時間とコストがかかってしまいます。

偽造者と警察: GAN がディープラーニングに必要なデータの量を大幅に削減

GAN は、ディープラーニング アルゴリズムのトレーニングを行うのに必要なデータの量を削減することで、この問題を回避します。そして、既存のデータからラベル付きのデータ (ほとんどの場合は画像) が作成されるように、ディープラーニング アルゴリズムに対する独自のトレーニング手段をもたらします。

研究者は、単一のニューラル ネットワークが写真を認識できるようにするためのトレーニングではなく、2 つの競合するネットワークのトレーニングを行います。前述の猫の例でいうと、まず、生成ネットワークが本物の猫のように見える偽物の猫の画像を作成しようとします。次に、識別ネットワークがそれらの猫の写真を調べて、本物かどうかを判別しようとします。

グッドフェロー氏は次のように説明します。「これは偽造者と警察の攻防になぞらえることができるでしょう。偽造者が本物そっくりな偽札を造ろうとするのに対し、警察は特定の紙幣を調べ、それが偽物かどうかを判別しようとするようなものです。」

偽物が本物に: ニューラル ネットワーク間の競合

この競合する 2 つのネットワークは、互いに学習を行います。たとえば、一方が偽物の画像を見つけ出す能力を高めようとするなら、もう一方はオリジナルと見分けがつかない偽物を作成する能力を高めようとするわけです。

NVIDIA の創設者兼 CEO であるジェンスン フアンは、GTC の基調講演で GAN を「ブレークスルー」と表現し、美術品の偽造者がピカソの贋作を本物として売ろうとするやり方に例えています。

「トレーニングの結果得られるものは、ピカソのような絵を描くことができるネットワークと、前例のないレベルの識別能力で画像と絵を認識できるネットワークなのです」とフアンは言います。

これは、プライバシーの問題から利用できるデータの量が限られる医薬などの分野で重要になります。GAN は足りないデータを補完できるため、本物と同様に AI のトレーニングに役立つ、完全に合成された患者のデータセットを生成することが可能になります。

グッドフェロー氏は、「皆さんも患者に対して検査を繰り返すのではなく、わずか数回分のテスト結果を使ってより多くのデータを生成できるようになりたいと考えるでしょう」と指摘します。

馬がシマウマになるしくみ

GAN には芸術的な側面もあります。

絵を描きたいのに才能がない? それなら、カリフォルニア大学バークレー校の研究者チームが開発した GAN の一種を使用すれば、ユーザーが描きたいもののラフ スケッチを作成し、色を選択するだけで、たちまち落書きを絵画へと変えることができます。

同バークレー チームに在籍する博士論文の提出資格者であるジュンヤン ジュー (Jun-Yan Zhu) 氏は、馬からシマウマ、オレンジからりんご、ゴッホからセザンヌの絵など、GAN を使って写真を変換する方法のデモを行っています。

また、GAN によって、低解像度の画像から高解像度の画像を生成したり、航空地図から写真へと変換したりすることや、あらゆる種類の写真編集を行うこともできるようになります。

グッドフェロー氏は、「唇の色や髪型など、顔のあらゆる特徴を変更するといった操作を行いながらも、非常に鮮明な色で現実的な顔を保つことができます」と説明します。

GAN に関する今後の課題

Generative Adversarial Network については、その可能性を最大限に引き出すためにさらなる研究が必要だ、とグッドフェロー氏は言います。本物と言えるレベルの画像が得られない場合もあるためです。また、GAN はまだ、複雑なデータを生成できるというにはほど遠い状態です。

同氏は次のように述べています。「1 種類の画像を生成できる GAN の開発については非常にうまくいっています。しかし、本当に難しいのは、犬や猫、馬といった世界中のあらゆる画像を描くことができる GAN を開発することなのです。」

GAN のしくみの技術的な詳細については、当社の Parallel for All ブログの「Photo Editing with Generative Adversarial Networks」 (英語) を参照してください。