NVIDIA、ジェネレーティブ AI およびジェネラリスト AI エージェントに関する研究で NeurIPS Awards を受賞

by Isha Salian · December 2, 2022

機械学習やコンピュータービジョンなどに関する注目度の高いカンファレンスにおいて、60 を超える NVIDIA Research のプロジェクトの中から画期的な論文がアワードを受賞

NVIDIA Research の 2 本の論文 (拡散ベースのジェネレーティブ AI モデルに関する論文と、ジェネラリスト AI エージェントのトレーニングに関する論文) が NeurIPS 2022 Awards を受賞しました。AI と機械学習の分野への貢献が評価された受賞となります。

これらは 60 を超える論文、ポスター、ワークショップの中の1つです。NVIDIA の著者は、NeurIPS カンファレンス (今週ニューオーリンズで開催され、来週オンラインで開催) で賞が授与されます。

合成データの生成 (画像、テキスト、またはビデオ) は、NVIDIA で執筆された複数の論文で重要なテーマとして取り上げられています。他にも、強化学習、データの収集と拡張、気象モデル、連合学習などのトピックも取り上げられています。

NVIDIA のラーニング/パーセプション研究担当バイスプレジデントであるジャンカウツ (Jan Kautz) は次のように述べています。「AI は非常に重要なテクノロジであり、NVIDIA はジェネレーティブ AI から自律型 AI エージェントまで、あらゆる領域で急速な進歩を遂げています。ジェネレーティブ AI において、NVIDIA は基礎となるモデルの理論的解釈を深めるだけでなく、リアルな仮想世界やシミュレーションを実現する労力を軽減させる実用的な貢献も果たしています。」

拡散ベースの生成モデルの設計を再考

拡散ベースのモデルは、ジェネレーティブ AI 向けの画期的な手法として登場しました。NVIDIA の研究者は、拡散モデルの設計を分析し、これらのモデルの効率と品質を劇的に向上できる改善を提示した功績が評価され、「Outstanding Main Track Paper」を受賞しました。

この論文では拡散モデルのコンポーネントをモジュール設計に分解しており、開発者はこの手法によってモデル全体のパフォーマンスを向上させるために調整できるプロセスを特定できます。研究者は、こうした改良により、AI によって生成された画像の品質を評価する指標で記録的なスコアを実現できることを実証しています。

『Minecraft』ベースのシミュレーションスイートでジェネラリスト AI エージェントをトレーニングする

『Starcraft』や『Dota』などのビデオゲーム環境や囲碁において、研究者は長い間、自律型 AI エージェントをトレーニングしてきましたが、これらのエージェントは、通常、ごく少数のタスクのスペシャリストにすぎませんでした。そこで、NVIDIA の研究者は、世界で最も人気のあるゲームである『Minecraft』に着目し、さまざまなオープンエンドタスクを正常に実行できるジェネラリストエージェントのためのスケーラブルなトレーニングフレームワークを開発しました。

MineDojo というこのフレームワークにより、AI エージェントは、7,000 超の Wiki ページ、数百万の Reddit スレッド、および 30 万時間のゲームプレイ記録 (上の画像を参照) から成る大規模なオンラインデータベースを使用して、『Minecraft』の柔軟なゲームプレイを学習できます。このプロジェクトは、NeurIPS 委員会による「Outstanding Datasets and Benchmarks Paper Award」を受賞しました。

概念実証として、MineDojo を開発した研究者は、MineCLIP と呼ばれる大規模な基盤モデルを作成しました。MineCLIP では、『Minecraft』のゲームプレイの YouTube ビデオを、プレイヤー自身が画面上の動きを解説するビデオのトランスクリプトに関連付ける方法を学習します。チームは、MineCLIP を使用して、人間の介入なしで『Minecraft』で複数のタスクを実行できる強化学習エージェントをトレーニングできました。

複雑な 3D 形状を作成して仮想世界を構成

また、NeurIPS では GET3D も採択されました。GET3D は、建物、車、動物など、トレーニング対象の 2D 画像のカテゴリに基づいて 3D 形状を瞬時に合成するジェネレーティブ AI モデルです。AI によって生成されたオブジェクトは、忠実度の高いテクスチャと複雑な幾何学的ディテールを備えています。オブジェクトは、一般的なグラフィックスソフトウェアアプリケーションでも使用されている三角形メッシュ形式で作成されます。これにより、ユーザーは形状を 3D レンダラーやゲームエンジンに簡単にインポートして、さらに編集できます。

GET3D の名前の由来は Generate Explicit Textured 3D meshes (明示的なテクスチャ付き 3D メッシュの生成) で、さまざまなカメラアングルからキャプチャされた 3D 形状の 2D 画像を約 100 万枚使用して、NVIDIA A100 Tensor コア GPU でトレーニングされました。1 基の NVIDIA GPU で推論を実行すると、モデルは 1 秒あたり約 20 個のオブジェクトを生成できます。

AI によって生成されたオブジェクトは、建物、屋外スペース、または都市全体の 3D 表現 (ゲーム、ロボティクス、建築、ソーシャルメディアなどの業界向けに設計されたデジタルスペース) に使用できます。

マテリアルやライティングを制御してインバースレンダリングパイプラインを改善

6 月にニューオーリンズで開催された直近の CVPR カンファレンスで、NVIDIA Research は 3D MoMa を紹介しました。これは、開発者が 3 つの異なる要素 (3D メッシュモデル、モデルの表面を装飾するマテリアル、ライティング) で構成される 3D オブジェクトを作成できるようにするインバースレンダリング手法です。

その後、チームは、3D オブジェクトからのマテリアルとライティングの分離において大きな進歩を遂げました。これにより、マテリアルの交換やオブジェクトがシーン内を移動する際にライティングの調整を行い、AI によって生成された形状を編集するクリエイターの能力が向上します。

NVIDIA RTX GPU で高速化されたレイトレーシングを活用する、よりリアルなシェーディングモデルを使用したこの作品は、NeurIPS でポスターとして展示されています。

言語モデルによって生成されたテキストにおける事実の正確性の向上

NeurIPS で認められたもう 1 つの論文では、トレーニング済みの言語モデルに関する重要な課題、つまり AI によって生成されたテキストにおける事実の正確性について論じています。

オープンエンドのテキスト生成用にトレーニングされた言語モデルは、事実ではない情報を含むテキストを生成することがよくあります。これは、AI が単に単語間の関連付けを行い、文中で次に来る内容を予測しているためです。この論文では、NVIDIA の研究者がこうした制限に対処する手法を提示しています。この手法は、こうした言語モデルを実際のアプリケーションに展開する前に必要となります。

研究者は、オープンエンドのテキスト生成用の言語モデルにおける事実の正確性を測定するための初となる自動ベンチマークを構築し、数十億のパラメータを持つ大規模な言語モデルの方が小規模な言語モデルよりも事実性が高いことを発見しました。チームは、新しいサンプリングアルゴリズムとともに、新しい手法である事実性強化トレーニングを提示しており、一緒に使用することで、正確なテキストを生成するための言語モデルのトレーニングが可能になります。また、チームは、事実誤認の割合が 33% から約 15% に減少したことを実証しています。

NVIDIA の研究者は、全世界で 300 名以上存在し、チームとして AI、コンピューターグラフィックス、コンピュータービジョン、自動運転車、ロボティクスといったトピックに重点的に取り組んでいます。NVIDIA Research の詳細と、NeurIPS で認められた NVIDIA の論文がすべて記載されたリストをぜひご覧ください。