NVIDIA Researchが仮想世界に 3D オブジェクトやキャラクターを生成するための AI モデルを構築

投稿者: Isha Salian

企業やクリエイターが構築する大規模な仮想世界が増え続けています。そしてNVIDIA Research が開発した新しい AI モデルによって、これらの世界の中で多彩な3D の建物、車両、キャラクターなどが簡単に生成できるようになります。

2D 画像のみを使用してトレーニングされた NVIDIA GET3D は、忠実度の高いテクスチャと複雑な幾何学的ディテールを備えた 3D シェイプを生成します。これらの 3D オブジェクトは、一般的なグラフィックス ソフトウェア アプリケーションで使用されるのと同じ形式で作成されるため、ユーザーはシェイプを 3D レンダラーやゲームエンジンにすぐにインポートしてさらに編集することができます。

生成されたオブジェクトは、ゲーム、ロボティクス、建築、ソーシャル メディアなどの分野向けに設計された、建物、屋外スペース、または都市全体の 3D 表現で使用できます。

GET3D は、トレーニングに使用したデータに基づいた、事実上無制限の数の 3D シェイプを生成可能です。粘土の塊を詳細な彫刻に変えるアーティストのように、モデルは数字を複雑な 3D シェイプに変換します。

たとえば、2D の自動車画像のトレーニング データセットを使用して、セダン、トラック、レースカー、バンのコレクションを作成します。動物の画像でトレーニングすると、キツネ、サイ、ウマ、クマなどの生き物を作成し、椅子の画像だと、モデルはさまざまな回転椅子、ダイニング チェア、心地良いリクライニング チェアを生成します。

このツールを作成したトロントに本拠を置く AI ラボを率いるNVIDIA の AI 研究担当バイス プレジデント、サンジャ フィドラー (Sanja Fidler) 以下次のように述べています。「GET3D によって、AI を活用した 3D コンテンツ制作を民主化することに一歩近づきました。テクスチャ付きの 3D シェイプを即座に生成する機能は、多様で興味深いオブジェクトを仮想世界にすばやく生成するのに役立ち、開発者にとってゲームチェンジャーとなる可能性を秘めています」

GET3D は、ニューオーリンズで 11 月 26 日から 12 月 4 日にバーチャルで開催される NeurIPS AI カンファレンスで採択された、NVIDIA が執筆した 20 以上の論文およびワークショップのうちの 1 つです。

仮想世界を作るには AI による多様性が必要

現実の世界は多様性に満ちています。通りにはユニークな建物が立ち並び、様々な種類の車が走り、多様な人々が行き交います。これを反映する 3D 仮想世界を手動でモデリングするのは非常に時間がかかり、詳細なデジタル環境を満たすことは困難です。

これまでの 3D 生成 AI モデルは、手動で生成する手法よりは高速であったものの、生成できる精密さのレベルに制限がありました。最近の逆レンダリング手法でさえ、さまざまな角度から撮影した 2D 画像に基づいた 3D オブジェクトを生成することしかできないため、開発者は一度に 1 つずつの 3D シェイプを構築する必要があります。

代わりに GET3D を、単一の NVIDIA GPU 上で推論を実行すると、1 秒間に約 20 ものシェイプを生成できます。これは、2D 画像の敵対的生成ネットワークのように動作して、3D オブジェクトを生成します。学習したトレーニング データセットが大きく、多様であるほど、出力は多様で細やかなディテールを持つようになります。

NVIDIA の研究者は、さまざまなカメラ アングルからキャプチャされた 3D シェイプの 2D 画像で構成される合成データで GET3D をトレーニングしました。このチームが NVIDIA A100 Tensor コアGPU を使用し、約 100 万枚の画像でモデルをトレーニングするのに、わずか 2 日しかかかりませんでした。

クリエイターがシェイプ、テクスチャ、マテリアルを変更可能に

GET3D は、Explicit Textured 3D メッシュを生成 (Generate Explicit Textured 3D) する機能からその名前が付けられました。つまり、GET3D が生成するシェイプは、張り子モデルのような三角形のメッシュの形で、テクスチャ マテリアルで覆われています。これにより、ユーザーはオブジェクトをゲーム エンジン、3D モデラー、フィルム レンダラーに簡単にインポートして編集できます。

クリエイターが GET3D で生成されたシェイプをグラフィックス アプリケーションにエクスポートすると、オブジェクトがシーン内で移動または回転するときにリアルな照明効果を適用できます。NVIDIA Research の別の AI ツールである StyleGAN-NADA を組み込むことで、開発者はテキスト プロンプトを使用して、レンダリングされた車を燃やされた車やタクシーに変更したり、普通の家をお化け屋敷に変えたりするなど、特定のスタイルを画像に追加できます。

研究チームは、GET3D の今後のバージョンでは、カメラによる姿勢推定技術を使用して、開発者が合成データセットではなく実世界のデータでモデルをトレーニングできるようになる可能性があることも述べています。また、ユニバーサル生成をサポートするように改善することも可能で、すなわち開発者は GET3D を一度に 1 つのオブジェクト カテゴリーについてトレーニングさせるのではなく、あらゆる種類の 3D シェイプで一度にトレーニングさせることができるようになるのです。

NVIDIA の AI 研究の最新ニュースについては、NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) の GTC での基調講演のリプレイをご覧ください。