NVIDIA Research の 研究員は手品師ではありませんが、NVIDIA の創業者兼 CEO であるジェンスン フアン (Jensen Huang) がサンノゼの GPU テクノロジ カンファレンスの基調講演で取り上げた研究結果を見た聴衆はそう思うかもしれません。
フアンは、従来のコンピューター グラフィックスを覆す可能性を秘めている 2 つのディープラーニングの研究結果を取り上げました。いずれの研究結果も、ゲーム開発者が開発期間を短縮し、コストを削減して、よりリッチなエクスペリエンスを生成するのに役立つと見込まれます。また、もっと多様な道路条件、環境、場所について自動車をトレーニングするためのデータを簡単に作成することによって、自動運転車の開発が加速される可能性があります。
この一組の研究プロジェクトは、産業を発展させるために、当社がディープラーニングに関する経験とコンピューター グラフィックスに関する長い歴史を組み合わせている方法を示す最新の例です。世界中の 11 か所の拠点にわたり 200 人で構成される当社の強力な NVIDIA Research チームは、機械学習、コンピューター ビジョン、自動運転車、ロボット工学、グラフィックス、コンピューター アーキテクチャ、プログラミング システムなどの分野でテクノロジの限界を広げることに注力しています。
フアンは、次のように述べています。「この Research チームの生産性は、非常に驚異的です。このチームは、コンピューティングのあらゆる分野にわたって基礎研究を進めています。」
この 2 つの画像は、同じ画像からノイズを除去したものです。左側の画像のノイズ除去は、対応するクリーンな画像とノイズのある画像でニューラル ネットワークをトレーニングすることによって実行されました。右側の画像では、ノイズのある画像のみでトレーニングしたモデルを使用してノイズを除去しました。
画像のノイズ除去
ノイズのある画像とはどのようなものか分からないかもしれませんが、おそらくノイズのある写真を撮ったことはあるでしょう。薄暗いシーンにカメラを向けると、奇妙な色の斑点や、輝点と呼ばれる白い点がある不鮮明な写真が撮影されます。
画像からのノイズ除去は、この処理自体によって不自然なアーチファクトが生じたり、不鮮明になったりすることがあるために困難です。ディープラーニングの実験によってソリューションが提供されましたが、ニューラル ネットワークをトレーニングするために、対応するクリーンな画像とノイズのある画像の組み合わせが必要であるという重大な欠点がありました。
このソリューションはクリーンな画像がある限り動作しますが、このような画像を入手することは困難であり、場合によっては不可能なことがあります。フィンランドとスウェーデンの NVIDIA Research の研究員は、この問題を回避するため Noise2Noise と呼ばれるソリューションを開発しました。
通常 AI によるノイズ除去では、
対応するクリーンな画像とノイズのある
画像の組み合わせが必要です。
しかし、多くの場合、MRI や
その他の医療画像に対して
クリーンな画像を入手するのは困難です。
Noise2Noise では、クリーンな画像が不要です。
もはや「不完全なデータからは不完全な結果しか得られない」とは限らない
クリーンな画像の作成は、MRI のような医療画像検査と遠く離れた星や惑星の天体写真 (クリーンな画像を撮影するには時間と光量が少なすぎる状況) において一般的な問題です。
コンピューター グラフィックスでは、時間も問題となります。ノイズ除去システムをトレーニングするためにクリーンな画像データを作成するタスクだけで、数日または数週間かかることがあります。
Noise2Noise について初めて聞いたときには、実現不可能であるように思われます。対応するクリーンな画像とノイズのある画像の組み合わせでネットワークをトレーニングする代わりに、これは対応するノイズのある画像の組み合わせ (ノイズのある画像のみ) でネットワークをトレーニングします。しかし、Noise2Noise では、従来の方法でトレーニングしたネットワークで達成できる結果と同等またはほぼ同等の結果が得られます。
当社の研究担当バイス プレジデントであるデイビッド リュプケ (David Luebke) は、次のように述べています。「私たちは、ネットワークを適切にセットアップすることにより、不可能とみなされる処理の実行を要求できることを発見しました。これは、すべてを理解するまで、本当に驚くべき結果に思われます。」
レゴ ブロックのような容易さ
フアンが取り上げた第 2 のプロジェクトは、仮想世界を構築するまったく新しい方法に関するものです。この方法では、ディープラーニングを利用して、ゲームの 3D モデリングと自動運転車向けのトレーニング データの入手に関して、面倒でコストのかかる作業が大幅に軽減されます。
セマンティック マニピュレーションと呼ばれるこの技法は、子供がブロックを組み合わせてジェット機からドラゴンまで何でも作ることができるレゴに似ています。
セマンティック マニピュレーションでは、初めにラベル マップ (シーン内の各ピクセルにラベルを付けた青写真) を扱います。マップ上のラベルを切り替えてオフにすると、画像が変化します。異なるタイプの自動車、樹木、道路を選択するようオブジェクトのスタイルを編集することもできます。
困難なゲーム開発
この研究チームの手法では、不足しているトレーニング データを生成するために使用されることが多いディープラーニング技法、GAN (Generative Adversarial Networks: 敵対的生成ネットワーク) を活用しています。
一般に、GAN で写真のようにリアルな高解像度画像を生成することは困難ですが、NVIDIA 研究員はこれを可能にするようアーキテクチャを変更することができました。
今日、コンピューター ゲーム用の仮想環境を生成するには、CG デザイナーがモデルを作成し修正するのに数千時間を要し、1 つのゲームあたり 1 億ドル前後のコストがかかることがあります。このようなモデルをレンダリングすることによって、画面上にゲームが表示されます。
必要な労働量が削減されると、ゲーム デザイナーとスタジオは、キャラクターとシナリオを増やして、もっと複雑なゲームを作成できるようになります。
航空機なしでサンフランシスコからバルセロナまで対応
自動運転車をトレーニングするためのデータの取得にも、同様に多くの手間がかかります。このデータは、一般にセンサーとカメラを搭載した数台の自動車を道路上で走行させることによって取得します。次に、自動運転車のトレーニングに使用するため、自動車によって取得されたデータに手動でラベルを付けなければなりません。
研究チームの手法によって、たとえばサンフランシスコからデータを取得し、バルセロナなどの起伏の大きい別の都市にそのデータを適用できるようになる可能性があります。石畳の道路を舗装された道路に変換したり、並木道を自動車が一列に駐車された道路に変換したりすることができます。
これにより、多様な状況に対応するため、自動車をもっと効果的にトレーニングできるようになる可能性があります。また、現実世界のデータでトレーニングされ、生成モデルを使用してレンダリングされるグラフィック レンダリング エンジンの実現も想定されます。
フアンは、次のように述べています。「私は、NVIDIA Research チームを心から誇りに思っています。成長を続ける当社に手を貸してください。私たちは、研究チームと協力することを喜ばしく思っています。」
当社の研究員がグラフィックスをどのように変革しているかに関する詳細は、(以下に示す) ペーパーまたは当社の関連記事 (「まったく新しいゲーム制作の形: NVIDIA リサーチ、AI をコンピューター グラフィックスに活用」および「NVIDIA Researchers Showcase Major Advances in Deep Learning at NIPS」) を参照してください。
- Noise-to-Noise: Learning Image Restoration without Clean Data
- High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANS – 6 月に開催される CVPR 2018 口頭発表採択論文。