ナイトライダーに登場するナイト 2000 を AI と NVIDIA Omniverse で再現

投稿者: Isha Salian

NVIDIA Research の最新モデルは、GAN を使用し、ゲーム開発者、アーティスト、デザイナー、建築家のために、2D 画像を 3D オブジェクトに変換する

NVIDIA Research は、標準的な 2D 画像から 3D オブジェクト モデルを作成する新しいディープラーニング エンジンを強化しています。NVIDIA Omniverse を利用して、テレビ番組「ナイトライダー」の AI 「K.I.T.T.」を搭載したナイト 2000 のような伝説的な自動車を再現することができます。

トロントにある NVIDIA AI Research Lab で開発された GANverse3D アプリケーションは、平面的な画像をリアルな 3D モデルに変換し、仮想環境で可視化して制御することができます。

この機能を利用すると、建築家、クリエイター、ゲーム開発者、デザイナーは、3D モデリングの専門知識やレンダリングのための多額の予算がなくても、モックアップに新しいオブジェクトを簡単に追加できるようになります。

たとえば、1 枚の自動車の写真を、ヘッドライト、テールライト、ウインカーまでリアルに再現した 3D モデルに変換して、仮想のシーンを走行させることができます。

研究者は、トレーニング用のデータセットを生成するために、敵対的生成ネットワーク (GAN) を利用して同じ物体を複数の視点から撮影した画像を合成しました。カメラマンが止まっている車の周りを歩きながら、さまざまな角度から撮影するようなものです。このマルチビュー画像は、2D 画像から 3D メッシュ モデルを推論するプロセスであるインバース グラフィックス用のレンダリング フレームワークに入力されました。

マルチビュー画像でトレーニングした GANverse3D は、1 枚の 2D 画像だけで 3D メッシュ モデルを予測できるようになります。このモデルは、開発者がオブジェクトのカスタマイズや背景の入れ替えを行える 3D ニューラル レンダラーで使用することができます。

NVIDIA Omniverse プラットフォームの拡張機能としてインポートし、NVIDIA RTX GPU で実行した場合、GANverse3D は、あらゆる 2D 画像から 3D オブジェクトを再現することができます。たとえば、1980 年代の人気テレビ番組「ナイトライダー」で犯罪と戦った魅力的な自動車、ナイト 2000 を再現することが可能です。

これまでのインバース グラフィックス用のモデルでは、トレーニング データとして 3D 形状を利用していました。

GANverse3D では、3D アセットを利用していません。NVIDIA の研究サイエンティストであり、このプロジェクトの論文の主執筆者であるヴェンツェング チェン (Wenzheng Chen) は、次のように述べています。「NVIDIAは、GAN モデルを非常に効率的なデータ生成器に変換して、Web 上のあらゆる 2D 画像から 3D オブジェクトを作成できるようにしました。」

NVIDIA の研究者であり、このプロジェクトの論文執筆者であるジュン ガオ (Jun Gao) は、次のように述べています。「合成データを利用する一般的なパイプラインではなく、実際の画像でトレーニングしたため、実世界でのアプリケーション向けに AI モデルの汎用性が高まりました。」

GANverse3D の実現につながった研究については、今後開催される 2 回のカンファレンス、 5 月の ICLR (International Conference on Learning Representations) と 6 月の CVPR (Conference on Computer Vision and Pattern Recognition) で発表されます。

2D の画像から走行しているナイト 2000 へ

ゲーム、建築、デザインのクリエイターは、NVIDIA Omniverse シミュレーション/コラボレーション プラットフォームのような仮想環境を利用して、最終製品を制作する前に、新しいアイデアをテストし、プロトタイプを可視化しています。Omniverse コネクタ を使い、開発者は、Omniverse 内で好みの 3D アプリケーションを使用して、リアルタイム レイトレーシングで複雑な仮想世界をシミュレートできるようになります。

しかし、すべてのクリエイターに、スケッチしたすべてのオブジェクトの 3D モデルを作成する時間とリソースがあるとは限りません。実際にショールームに飾られているように見える自動車、道路脇にあるように見える建物をレンダリングするために必要な多数のマルチビュー イメージを撮影するコストは、極めて高くなることがあります。

このような場合には、トレーニング済みの GANverse3D アプリケーションを利用することで、自動車、建物、さらには馬の標準的な画像を 3D オブジェクトに変換して、Omniverse でカスタマイズし、アニメーションを実行することができます。

ナイト 2000 を再現するために、研究者は、トレーニングされたモデルに自動車の画像を入力し、GANverse3D に対応するテクスチャ付き 3D メッシュと、ホイールやヘッドライトなどの自動車のさまざまな部分の画像を予測させました。次に、NVIDIA Omniverse KitNVIDIA PhysX ツールを利用して、予測されたテクスチャを高品質なマテリアルに変換し、ナイト 2000 の外観のリアリティを高め、動的な走行シーケンスを割り当てました。

NVIDIA のディープラーニング エンジニアであるジーンフランソア ラフレーシュ (Jean-Francois Lafleche) は、次のように述べています。「Omniverse を通じて、研究者は、エキサイティングな最新の研究結果を、クリエイターとエンド ユーザーに直接提供することができます。Omniverse の拡張機能として GANverse3D を提供することは、アーティストがゲーム開発、都市計画、さらには新しい機械学習モデルのトレーニングのために、より豊かな仮想世界を制作するために役立ちます。」

GAN が次元の変化を支援

同じオブジェクトをさまざまな角度から撮影した実世界のデータセットはまれであるため、2D から 3D に画像を変換するほとんどの AI ツールは、ShapeNet のような合成 3D データセットを使用してトレーニングされます。

Web で入手できる自動車の画像など、実世界のデータからマルチビュー画像を取得するために、NVIDIA 研究者は代わりに GAN モデルを利用し、そのニューラルネットワーク レイヤーを操作してデータ生成器に変換しました。

研究チームは、ニューラルネットワークの最初の 4 つのレイヤーを開放し、残りの 12 のレイヤーを固定すると、GAN が同じオブジェクトの画像をさまざまな視点からがレンダリングすることを発見しました。

一方、最初の 4 つのレイヤーを固定し、他の 12 のレイヤーを可変にすると、ニューラルネットワークは、同じ視点から異なる画像が生成しました。標準的な視点を手動で割り当て、自動車を特定の高さとカメラの距離で撮影することで、研究者は個々の 2D 画像からマルチビュー データセットを高速に生成することができました。

GAN によって生成された 5 万 5,000 枚の自動車の画像でトレーニングした最終的なモデルは、人気のある Pascal3D データセットでトレーニングしたインバース グラフィックス ネットワークよりも高いパフォーマンスを示しました。

ヴェンツェング チェン、NVIDIA 特別研究者であるジュン ガオとファーン リング (Huan Ling)、NVIDIA のトロント研究所のディレクターであるサンジャ フィドラー (Sanja Fidler)、ワーテルロー大学の学生であるユクサン チャン (Yuxuan Zhang) 氏、スタンフォード大学の学生であるイーナン チャン (Yinan Zhang) 氏、マサチューセッツ工科大学教授のアントニオ トラルバ (Antonio Torralba) 氏によって執筆された ICLR で発表予定の論文をお読みください。CVPR で発表される論文の執筆には、NVIDIA の研究者であるジーンフランソア ラフレーシュ、カンシュ イン (Kangxue Yin)、アデラ ブリウソ (Adela Barriuso) も貢献しました。

NVIDIA Research チームは、世界中の 200 人を超える科学者で構成され、AI、コンピューター ビジョン、自動運転車、ロボティクス、グラフィックスなどの領域に注力しています。NVIDIAの最新の研究と業界のブレイクスルーについては、先週開催されたGPU テクノロジ カンファレンス (GTC) で NVIDIA の CEO であるジェンスン フアンが語った基調講演をお聞きください。

Knight Rider ©1982 Universal Television Enterprises, Inc. Universal Studios Licensing LLC のご厚意により、掲載いたしました。