NVIDIA Research が、AI により 2D の写真を瞬時に 3D シーンに変換

by Isha Salian · April 7, 2022

高解像度の 3D シーンを数秒で学習し、そのシーンの画像を数ミリ秒でレンダリング可能なニューラルレンダリングモデル、Instant NeRFを開発

インスタント写真が初めて撮影されたのは 75 年前、ポラロイドカメラによるものでした。その当時、3D の世界をリアルな 2D 画像で素早くキャプチャするのは画期的なことでした。現在、AI の研究者が取り組んでいるのはその逆のこと、つまり、複数の静止画像を数秒でデジタル 3D シーンに変換することです。

インバースレンダリングというこのプロセスは、AI を使用して現実世界での光の動き方を推定するもので、研究者はこのプロセスを利用してさまざまなアングルで撮影された数枚の 2D 画像から 3D シーンを再構築できます。NVIDIA Research チームは、このタスクをほぼ瞬時に遂行する手法を開発しました。超高速ニューラルネットワークトレーニングと高速レンダリングを組み合わせたこの手法は、この分野における初のモデルの 1 つとなりました。

NVIDIA は、この手法を Neural Radiance Fields (NeRF) と呼ばれる人気の高い新しいテクノロジに適用し、Instant NeRF と名付けました。Instant NeRF はこれまでで最速の NeRF 手法で、場合によっては 1,000 倍以上のスピードアップを達成することができます。このモデルでは、数十枚の写真と、それらが撮影されたカメラアングルのデータでトレーニングするのにわずか数秒しかかからず、3D シーンを数十ミリ秒以内にレンダリングできます。

NVIDIA のグラフィックスリサーチ担当バイスプレジデントのデイビットルーブキー (David Luebke) は次のように述べています。「ポリゴンメッシュのような従来の 3D 表示がベクター画像に例えられるのだとすれば、NeRF はビットマップ画像に例えられます。NeRF では、オブジェクトからの光やシーン内で光が放射される方法を高密度にキャプチャします。その点で、3D における Instant NeRF の重要性は、2D 写真におけるデジタルカメラや JPEG 圧縮の重要性と同等と言えるでしょう。NeRF により、3D キャプチャとそれを共有するうえでのスピード、使いやすさ、カバー範囲が大幅に向上します」

Instant NeRF を使用することで、仮想世界のアバターやシーンの作成、ビデオ会議の参加者およびその環境の 3D でのキャプチャ、および 3D デジタルマップ向けのシーンの再構築が可能になります。こちらについての詳細は、NVIDIA GTC でのセッションで紹介されました。

NVIDIA Research は、ポラロイド写真が誕生した頃に敬意を表して、アンディウォーホル (Andy Warhol) がインスタント写真を撮る象徴的な写真を再現し、Instant NeRF を使用して 3D シーンに変換しました。

NeRF とは？

NeRF とは、ニューラルネットワークを使用して、複数の 2D 画像の入力に基づいてリアルな 3D シーンを表現およびレンダリングする技術のことです。

データを収集して NeRF にフィードする作業は、レッドカーペットで撮影するカメラマンがあらゆるアングルから有名人の衣装を撮影しようとする作業に少し似ています。ニューラルネットワークには、シーンを複数の位置から撮影した数十枚の写真と、その各写真のカメラ位置の情報が必要です。

人やその他の動く要素が含まれるシーンでは、これらの写真の撮影は高速であるほど優れた結果が得られます。2D 画像のキャプチャ中に動きが大きいと、AI で生成された 3D シーンはぼやけてしまいます。

そして、NeRF は 3D 空間のあらゆる点からあらゆる方向に放射する光の色を予測し、シーンを再構築する小さなニューラルネットワークをトレーニングし、画像の空白を埋めていきます。この手法は、ある写真に写っているオブジェクトが、別の写真では柱などの障害物によって遮られている場合でも、空白を埋めることができます。

Instant NeRF で 1,000 倍高速に

オブジェクトを部分的に見ることによってその奥行きや外観を推定することは、人間にとって自然なスキルですが、AI にとっては難しい作業です。

従来の方法で 3D シーンを作成するには、可視化の複雑さや解像度によっては数時間以上かかりますが、AI を画像に取り入れるとスピードアップします。初期の NeRF モデルは、アーティファクトのない鮮明なシーンを数分かけてレンダリングしましたが、それでもトレーニングには数時間かかりました。

Instant NeRF は、NVIDIA が開発したマルチ解像度ハッシュグリッドエンコーディングと呼ばれる技術によって実現されており、NVIDIA GPU 上で効率的に動作するように最適化されています。この新しい入力エンコーディング手法を使用することで、研究者は高速で実行される小さなニューラルネットワークを使用して高品質の出力結果を得ることができます。

このモデルは、NVIDIA CUDA Toolkit と Tiny CUDA Neural Networks ライブラリを使用して開発されました。軽量のニューラルネットワークであるため、1 基の NVIDIA GPU でトレーニングおよび実行でき、NVIDIA Tensor コアを搭載したGPUで最速で実行されます。

この技術を使用してロボットや自動運転車をトレーニングすれば、現実世界のオブジェクトの 2D 画像やビデオ映像をキャプチャすることで、そのサイズや形状を理解することができます。また、建築やエンターテインメントの分野で使用すれば、実際の環境をデジタルで迅速に生成でき、クリエイターが変更を加えることやその環境内に構築することもできます。

NVIDIA の研究者は、NeRF に留まらず、この入力エンコーディング手法を使用して、強化学習、言語翻訳、汎用ディープラーニングアルゴリズムといった、AI における多数の課題解決を加速する方法を模索しています。

NVIDIA Research の最新情報についての詳細は、NVIDIA の創業者/CEO であるジェンスンフアン (Jensen Huang) によるGTC 基調講演のリプレイをぜひご視聴ください。