コンテンツ クリエイターに朗報:NVIDIA Researchが、3D オブジェクトを即興的に制作する手法を開発

投稿者: Isha Salian

今週、ニューオリンズで開催中の Conference on Computer Vision and Pattern Recognition (CVPR) にて、インバース レンダリング パイプラインである NVIDIA 3D MoMa を紹介

ジャズではインプロビゼーション (即興演奏) がなにより大事となりますが、NVIDIA は、このジャンルに敬意を表し、グラフィックス クリエイターがいつかの日か、ジャム セッションのような短い時間で 3D オブジェクトのインプロビゼーションができるようにする AI の研究に取り組んでいます。

そのための手法を提供する NVIDIA 3D MoMa により、建築家、デザイナー、コンセプト アーティストおよびゲーム開発者は、グラフィックス エンジンにオブジェクトをすばやくインポートし、そのオブジェクトを使った作業、スケールの修正、マテリアルの変更、あるいはさまざまなライティングでの実験が開始できるようになります。

NVIDIA Research が、ジャズとその発祥地であるニューオリンズの両方を題材にした動画でこのテクノロジを披露したほか、NVIDIA 3D MoMa についての論文 (paper behind NVIDIA 3D MoMa) が今週、Conference on Computer Vision and Pattern Recognition (CVPR) で公開されます。

2D 画像から 3D オブジェクトを抽出

インバース レンダリングは、一連の静止画像をオブジェクトまたはシーンで構成された 3D モデルに再構成する手法です。「コンピューター ビジョンとコンピューター グラフィックスを統合させるというのは昔からの夢でした」と、NVIDIA のグラフィックス リサーチ担当バイス プレジデントのデイビット ルーブキー (David Luebke) は言います。

「インバース レンダリングにおける問題のあらゆる部分を、GPU で高速化される微分可能な要素として定式化することにより、NVIDIA 3D MoMa レンダリング パイプラインは、最新の AI の仕組みと NVIDIA GPU の純粋な処理能力を使って、クリエイターが既存ツールの制約を受けることなく、インポート、編集および拡大が可能な 3D オブジェクトをすばやく作り出せるようになります」

アーティストまたはエンジニアにとって最も利便性を高くするためには、ゲーム エンジンや 3D モデラー、フィルム レンダラーといった広く使用されているツールに3D オブジェクトを取り込めるようにする必要があります。そのための形式はテクスチャのついたマテリアルを持つ三角形メッシュであり、この方法は上記のような 3D ツールの共通言語となっています。

三角形メッシュとは、3D グラフィックスおよびモデリングで形を定義するために使用される、基本的な枠組みのことです。

ゲーム スタジオや他のクリエイターはこれまで、相当な時間と手作業を必要とする、複雑なフォトグラメトリ技術を使って、上記のような 3D グラフィックスを制作していました。ニューラル ラディアンス フィールド (NeRF) の最近の研究では、オブジェクトまたはシーンで構成された 3D 表現をすばやく生成することができますが、編集のしやすい三角形メッシュの形式ではありませんでした。

NVIDIA 3D MoMa は、単一のNVIDIA Tensor コア GPU によって、1 時間以内に三角形メッシュのモデルを生成します。このパイプラインのアウトプットは、クリエイターがすでに使用している 3D グラフィックス エンジンやモデリング ツールとの直接互換性があります。

このパイプラインによる再構成では、3D メッシュ モデル、マテリアルおよびライティングという 3 つの特性が使えます。メッシュは、三角形で作られた 3D 形状のパピエマシェ モデルのようなものです。これにより、開発者は、自身のクリエイティブ ビジョンに合わせてオブジェクトを修正することができます。マテリアルは、3D メッシュの上に肌のように重ねられた 2D のテクスチャです。さらに、NVIDIA 3D MoMa はシーンのライティングがどのようになるのかを推定し、クリエイターは後でオブジェクトのライティングを修正することができます。

楽器が仮想ジャズバンドに変身

NVIDIA 3D MoMa の機能を披露するために、NVIDIA の研究チームとクリエイティブ チームは最初に、さまざまな角度で撮られた、トランペット、トロンボーン、サクソフォン、ドラム セットおよびクラリネットという、ジャズ バンドで使用する5 つの楽器それぞれの画像を 100 枚程度収集しました。

NVIDIA 3D MoMa は、それぞれの楽器の 2D 画像をメッシュとして表示された 3D 表現へと再構成しました。その後、NVIDIA のチームは、オリジナルのシーンから楽器をとり出し、それらをNVIDIA Omniverse 3D シミュレーション プラットフォームにインポートして、編集を行いました。

従来のどのようなグラフィックス エンジンでも、クリエイターは、メッシュの着せ替えを行うように、NVIDIA 3D MoMa が生成した形状のマテリアルを簡単に取り替えることができます。たとえば、チームはトランペットのモデルでこれを行い、最初はプラスチックだったマテリアルを金、大理石、木またはコルクに変更しました。

その後、クリエイターは、新たに編集したオブジェクトをあらゆる仮想シーンに簡単に挿入することができます。NVIDIA チームは、レンダリングの品質を見るためのクラシックなグラフィックス テストに使われるコーネル ボックスに楽器を入れました。チームは、仮想楽器が物理世界と同じように光に反応し、光沢のある金管楽器は光を明るく反射し、光沢のないドラムの皮は光を吸収する様子を披露しました。

インバース レンダリングで生成された、これらの新しいオブジェクトは、複雑なアニメーション シーンの構成要素として使用することができます。これらは、動画の最後で仮想ジャズバンドの姿で披露されていました。

NVIDIA 3D MoMa についての論文 (paper behind NVIDIA 3D MoMa) は、6 月 23 日、午前 3 時 30 分 (日本時間) より、CVPR のセッションで紹介されます。これは、このカンファレンスで NVIDIA の研究者が発表する 38 の論文のうちの 1 つです。詳しくは、NVIDIA Research at CVPR をご覧ください。