インスタント ラテ: NVIDIA 生成 AI Research が 3D 形状を 1 秒以内に抽出

投稿者: Isha Salian

LATTE3D モデルは、テキスト プロンプトを、仮想世界への配置に役立つ高品質の 3D 形状に素早く変換

NVIDIA の研究者は、LATTE3D と呼ばれる最新のtext-to-3D AI生成モデルに、高速化のダブルショットを加えました。

LATTE3D は、仮想 3D プリンタさながらに、テキスト プロンプトを 1 秒以内にオブジェクトや動物の 3D 表現に変換します。

生成された形状は、標準的なレンダリング アプリケーションに使用される一般的フォーマットで作成され、ビデオ ゲーム、広告キャンペーン、デザイン プロジェクト、またはロボティクスのバーチャルなトレーニング場を開発するための仮想環境に簡単に提供可能です。

「1 年前、AI モデルがこの品質の 3D ビジュアルを生成するのに 1 時間かかりましたが、現在の最先端技術では約 10 ~ 12 秒で可能です」と語るのは、配下のトロント拠点の AI ラボ チームが LATTE3D を開発した、NVIDIA の AI 研究担当バイス プレジデント、サンジャ フィドラー (Sanja Fidler) です。「今では一桁速く結果を生成できるようになり、ほぼリアルタイムでのテキストから 3D への生成が、あらゆる業界のクリエイターへ届けられるようになっています」

この進歩は、NVIDIA Research のデモに使用された NVIDIA RTX A6000 などの単一 GPU で推論を実行するときに、LATTE3D がほぼ瞬時に 3D 形状を生成できることを意味します。

観念化、生成、反復: サイクルを短縮する

ゼロからデザインを開始したり、3D アセット ライブラリを調べたりする代わりに、クリエイターは LATTE3D を使用して、アイデアが頭に浮かんだらすぐに詳細なオブジェクトを生成できます。

モデルは各テキスト プロンプトに基づいていくつかの異なる 3D 形状オプションを生成し、クリエイターに選択肢を提供します。 選択されたオブジェクトは、数分以内に高品質になるように最適化できます。その後、ユーザーはその形状をグラフィックス ソフトウェア アプリケーションや、Universal Scene Description (OpenUSD) ベースの 3D ワークフローやアプリケーションを可能にする NVIDIA Omniverse などのプラットフォームに書き出せます。

研究者は 2 つの特定のデータセット (動物と日常の物体) で LATTE3D をトレーニングしましたが、開発者は同じモデル アーキテクチャを使用して他のデータ タイプで AI をトレーニングできます。

たとえば、LATTE3D を 3D 植物のデータセットでトレーニングすると、造園設計者がクライアントとブレインストーミングをしながら、庭園のレンダリングに木、花の咲く低木、多肉植物をすばやく配置するのに役立ちます。家庭用オブジェクトでトレーニングした場合、モデルは家の 3D シミュレーションを埋めるためのアイテムを生成でき、開発者はパーソナル アシスタント ロボットを現実世界でテストや展開する前に、シミュレーションを使用してトレーニングできます。

LATTE3D は、NVIDIA A100 Tensor コア GPU を使用してトレーニングされました。3D 形状に加えて、モデルは ChatGPT を使用して生成された多様なテキスト プロンプトでトレーニングされており、ユーザーが特定の 3D オブジェクトを説明するために思いつくさまざまなフレーズを処理するモデルの能力が向上しました。たとえば、さまざまなイヌ科の種をフィーチャーしたプロンプトは、すべて犬のような形状を生成する必要があることを理解できます。

NVIDIA Research は世界中の何百人もの科学者とエンジニアで構成されており、そのチームは AI、コンピューター グラフィックス、コンピューター ビジョン、自動運転車、ロボティクスなどのトピックに重点を置いています。

研究者らは先週、NVIDIA GTC で、拡散モデルのトレーニングに関する最先端の研究を発表しました。詳細については、NVIDIA 技術ブログ を、また、カリフォルニア州サンノゼで 3 月 21 日までオンラインで開催された GTC での NVIDIA Research セッションの全リストもご覧ください。

最新の NVIDIA AI ニュースについては、GTC での NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) の基調講演のリプレイを以下のURLからご覧ください。