NVIDIA の最新グラフィックス研究、ジェネレーティブ AI の次のフロンティアを促進

NVIDIA は、今年最も重要なコンピュータグラフィックスカンファレンスである SIGGRAPH にて約 20 の研究論文を発表予定

NVIDIA は、開発者やアーティストが、静止画や動画、2D や 3D、超リアルや幻想的など、自分のアイデアを実現可能にする最先端の AI 研究の波を紹介しました。

米国、欧州、イスラエルの 10 以上の大学との共同研究を含む、ジェネレーティブ AI とニューラルグラフィックスを推進する約 20 の NVIDIA Research の論文が、8 月 6 日から 10 日までロサンゼルスにて開催される最高峰のコンピュータグラフィックス会議、SIGGRAPH 2023 にて発表される予定です。

論文には、テキストをパーソナライズされた画像に変換するジェネレーティブ AI モデル、静止画像を 3D オブジェクトに変換する逆レンダリングツール、AI を利用して複雑な 3D 要素を圧倒的なリアルさでシミュレーションするニューラルフィジックスモデル、AI を使ってリアルタイムの視覚的な詳細を生成する新しい機能を解放するニューラルレンダリングモデルなどが含まれています。

NVIDIA の研究者によるイノベーションは、GitHub で定期的に開発者と共有され、メタバースアプリケーションを構築、運用するためのプラットフォーム「NVIDIA Omniverse」や、最近発表されたビジュアルデザイン用のカスタムジェネレーティブ AI モデルのファウンドリ「NVIDIA Picasso」などの製品に取り入れられています。NVIDIA の長年にわたるグラフィックス研究は、最近リリースされた世界初のパストレース AAA タイトルである『サイバーパンク2077』のレイトレーシング: オーバードライブモードのように、ゲームに映画スタイルのレンダリングをもたらすのに役立っています。

今年の SIGGRAPH で発表される研究成果は、開発者や企業がロボティクスや自動運転車のトレーニングのための仮想世界を構成する合成データの迅速な生成を支援します。また、アート、建築、グラフィックデザイン、ゲーム開発、映画などのクリエイターが、ストーリーボードやプリビジュアライゼーション、さらにはプロダクションで使用する高品質なビジュアルをより迅速に作成できるようになります。

パーソナルなタッチの AI: カスタマイズされたテキストから画像へのモデル

テキストを画像に変換するジェネレーティブ AI モデルは、映画やビデオゲーム、3D 仮想世界のコンセプトアートやストーリーボードを作成するための強力なツールです。テキストから画像に変換する AI ツールは、「子供のおもちゃ」というプロンプトを、ぬいぐるみ、ブロック、パズルなど、クリエイターがインスピレーションを得るために使用できる、ほぼ無限のビジュアルに変換することができます。

しかし、アーティストは特定のテーマを考えている場合があります。例えば、玩具ブランドのクリエイティブディレクターが新しいテディベアを中心とした広告キャンペーンを企画していて、テディベアのティーパーティーなど、さまざまな状況で玩具を可視化したいと思うかもしれません。ジェネレーティブ AI モデルの出力でこのレベルの具体性を持たせるために、テルアビブ大学と NVIDIA の研究者は、ユーザーが画像の例を提供することで、モデルが迅速に学習できるようにする 2 つの SIGGRAPH 論文の発表を準備しています。

1 つ目の論文では、出力をカスタマイズするために 1 枚のサンプル画像を必要とする手法について述べられています。1 基の NVIDIA A100 Tensor コア GPU でパーソナライズ処理を数分から約 11 秒に短縮し、従来のパーソナライズ手法に比べて 60 倍以上の高速化を実現しています。

2 つ目の論文では、Perfusion と呼ばれる非常にコンパクトなモデルが紹介されています。このモデルは、数枚のコンセプト画像を使用して、特定のテディベアやティーポットなど、複数のパーソナライズされた要素を組み合わせて、AI が 1 つのビジュアルを生成します。

3D サービス: 逆レンダリングとキャラクター作成の進歩

クリエイターが仮想世界のコンセプトアートを思いついたら、次は環境をレンダリングし、3D オブジェクトやキャラクターを追加する必要があります。NVIDIA Research は、 2D 画像やビデオを自動的に 3D オブジェクトに変換し、クリエイターがグラフィックスアプリケーションに取り込んで編集できるようにすることで、このような時間がかかるプロセスを加速する AI テクノロジを開発しています。

カリフォルニア大学サンディエゴ校の研究者と共同で作成した 3 つ目の論文は、1 枚の 2D ポートレートからフォトリアリスティックな 3D ヘッド & ショルダーモデルを生成してレンダリングするテクノロジについて述べたものです。これは、AI による 3D アバター作成と 3D ビデオ会議を可能にする大きな進歩です。この方法は、コンシューマー向けデスクトップ上でリアルタイムに動作し、従来のウェブカメラやスマートフォンのカメラだけで、フォトリアリスティックまたはスタイル化された 3D テレプレゼンスを生成することができます。

4 つ目の論文は、スタンフォード大学との共同研究で、3D キャラクターに実物そっくりの動きをもたらします。研究者たちは、実際のテニス試合の 2D ビデオ記録から多彩なテニスのスキルを学習し、この動作を 3D キャラクターに適用できる AI システムを作成しました。シミュレーションされたテニスの選手たちは、仮想のコート上で正確にボールを狙い打つことができ、他のキャラクターと長時間のラリーをすることもできます。

この SIGGRAPH の論文は、テニスというテストケースにとどまらず、高価なモーションキャプチャデータを使用せずに、リアルな動きで多様なスキルを実現できる 3D キャラクターを作成するという困難な課題に取り組んでいます。

一本の髪の乱れもない: リアルなシミュレーションを可能にするニューラルフィジックス

3D キャラクターが生成されると、アーティストは髪の毛のようなリアルで細部を重ねていくことができますが、これはアニメーターにとって複雑で計算コストのかかる課題です。

人間の髪の毛は平均 10 万本あり、その一本一本が個々の動きや周囲の環境に応じて動的に反応します。従来、髪の毛の動きは物理式を用いて計算され、リソースに応じて簡略化、近似化されてきました。そのため、大作映画に登場する仮想キャラクターは、リアルタイムのビデオゲームのアバターよりもはるかに詳細な毛髪を持っています。

5 つ目の論文では、現実世界で物体がどのように動くかを予測するためにニューラルネットワークに教える AI テクノロジであるニューラルフィジックスを用いて、数万本の毛髪を高解像度かつリアルタイムでシミュレーションできる方法を紹介しています。

研究チームは、実物大の毛髪を正確にシミュレーションするための新しいアプローチを、最新の GPU 向けに特別に最適化しました。CPU ベースの最新ソルバーと比較して大幅に性能が向上し、シミュレーションにかかる時間が数日から数時間程度に短縮すると同時に、リアルタイムで可能なヘアシミュレーションの品質も向上しています。このテクノロジにより、物理ベースのヘアグルーミングの正確さとインタラクティブ性を両立させることが可能になりました。

リアルタイムグラフィックスに映画並みのディテールをもたらすニューラルレンダリング

環境にアニメーション化された 3D オブジェクトやキャラクターを配置した後、リアルタイムレンダリングが仮想シーンを通して光が反射する物理現象をシミュレーションします。最近の NVIDIA の研究では、テクスチャ、マテリアル、ボリュームに関する AI モデルが、ビデオゲームやデジタルツインにおいて、映画品質のフォトリアリスティックなビジュアルをリアルタイムで実現する方法を示しています。

NVIDIA は 20 年以上前にプログラマブルシェーディングを発明し、開発者がグラフィックスパイプラインをカスタマイズできるようにしました。これらの最新のニューラルレンダリングの発明において、研究者は NVIDIA のリアルタイムグラフィックスパイプラインの奥深くで動作する AI モデルでプログラマブルシェーディングコードを拡張しました。

NVIDIA は、SIGGRAPH での 6 つ目の論文で、GPU メモリを追加することなく最大16倍のテクスチャディテールを実現するニューラルテクスチャ圧縮を発表します。ニューラルテクスチャ圧縮は、3D シーンの臨場感を大幅に向上させることができます。下の画像は、ニューラル圧縮されたテクスチャ (右) が、テキストがぼやけたままである従来のフォーマット (中央) よりも鮮明な詳細を捉えていることを示しています。

ニューラルテクスチャ圧縮 (右) は、GPU メモリを追加使用することなく、従来のテクスチャフォーマットと比較して最大 16 倍のテクスチャ詳細度を実現します。

昨年発表された関連論文は、煙、火、雲、水などのボリュームデータを表現するのに必要なメモリを 100 倍削減する AI 対応データ圧縮技術 NeuralVDB として早期アクセスが可能になりました。

NVIDIA はまた、直近の NVIDIA GTC 基調講演で示されたニューラルマテリアル研究の詳細を発表しました。この論文では、フォトリアルな何層ものマテリアルから光がどのように反射するかを学習し、これらのアセットの複雑さをリアルタイムで実行する小さなニューラルネットワークにまで減らし、最大 10 倍高速なシェーディングを可能にする AI システムについて説明しています。

そのリアルさは、以下のレンダリングされたティーポットにも表れています。陶器、不完全なクリアコートの釉薬 (うわぐすり)、指紋、汚れ、埃までも正確に表現しています。

ニューラルマテリアルモデルは、何層にも重なったフォトリアルなリファレンスマテリアルから、光がどのように反射するかを学習します。

より多くのジェネレーティブ AI とグラフィックスの研究

これらはハイライトに過ぎません。SIGGRAPH におけるすべての NVIDIA の論文について、詳細をご覧ください。また、NVIDIA は、パストレーシング、テレプレゼンス、ジェネレーティブ AI の拡散モデルなどのテーマで、6 つのコース、4 つの講演、2 つの Emerging Technology デモをカンファレンスで発表する予定です。

NVIDIA Research は、世界中の数百人の科学者とエンジニアからなるチームで、AI 、コンピュータグラフィックス、コンピュータビジョン、自動運転車、ロボティクスなどのトピックに注力しています。

NVIDIA は、今年最も重要なコンピュータ グラフィックス カンファレンスである SIGGRAPH にて約 20 の研究論文を発表予定