フィジカル AI は、最新のロボティクス、自動運転車、スマートスペースを支える原動力であり、ニューラル グラフィックス、合成データ生成、物理ベースのシミュレーション、強化学習、そして AI リーズ二ングを組み合わせて構築されています。この組み合わせは、AI とグラフィックスという現在融合しつつある分野を、20 年近くにわたって推進してきた NVIDIA Research のグローバルな専門チームの総合力に最適です。
このため、8 月 14 日までバンクーバーで開催されているコンピューター グラフィックスのプレミア カンファレンス、SIGGRAPH にて、NVIDIA Research のリーダーたちが、フィジカル AI および空間 AI を実現するグラフィックスとシミュレーションの革新を紹介する特別講演を行いました。
NVIDIA の AI 研究担当バイス プレジデント、サンジャ フィドラー (Sanja Fidler) は次のように述べています。「AI は私たちのシミュレーション能力を進化させており、そしてそのシミュレーション能力が AI システムの進化を促しています。この 2 つの分野の間には、真に強力なつながりがあり、この組み合わせを持つ組織はごくわずかです」
SIGGRAPH にて、NVIDIA はフィジカル AI 向けの新しいソフトウェア ライブラリを発表しました。具体的には、大規模な世界再構築のための NVIDIA Omniverse NuRec 3D Gaussian splatting ライブラリ、ビジョン AI および向けの NVIDIA Metropolis プラットフォームのアップデート、さらに NVIDIA Cosmos および Nemotron のリーズ二ング モデルなどが含まれます。Cosmos Reason は、フィジカル AI 向けの新しいリーズ二ング視覚言語モデルであり、ロボットやビジョン AI エージェントが、事前知識、物理に関する理解、そして常識を活用して、人間のようにリーズ二ングできるようにします。
こうしたイノベーションの多くは、NVIDIA のグローバル研究チームによるブレイクスルーに基づいています。同チームは、ニューラル レンダリング、リアルタイム パス トレーシング、合成データ生成、強化学習の進展に関する 12 本以上の論文を展示会で発表予定です。これらの技術は、次世代のフィジカル AI ツールを支える中核となるものです。
フィジカル AI がグラフィックス、AI、ロボティクスを統合する仕組み
フィジカル AI の開発は、忠実で物理的に正確な 3D 環境の構築から始まります。このようなリアルな仮想環境がなければ、開発者はヒューマノイド ロボットなどの高度なフィジカル AI システムをシミュレーションで十分にトレーニングできません。仮想環境で習得したスキルが、現実世界ではうまく通用しないからです。
桃を傷つけずに木から摘み取るために、正確な圧力をかける農業ロボットや、1 ミリ単位で精度が求められる機械上で微細な電子部品を組み立てる製造ロボットを想像してみてください。
NVIDIA の研究部門バイス プレジデントであるミンユ リュウ (Ming-Yu Liu) は次のように述べています。「フィジカル AI には、現実のように感じられる仮想環境、つまりロボットが試行錯誤を繰り返しながら安全に学べる並行世界が必要です。この仮想世界を構築するには、リアルタイム レンダリング、コンピューター ビジョン、物理モーション シミュレーション、2D および 3D の生成 AI、そして AI リーズ二ングが必要です。これらは、NVIDIA Research が約 20 年にわたり磨き上げてきた得意分野です」
2006 年の研究部門の設立以来、レイ トレーシングやリアルタイム コンピューター グラフィックスにおける NVIDIA の画期的な研究の蓄積は、フィジカル AI シミュレーションに求められるリアリズムの実現において重要な役割を果たしています。これらのレンダリング作業の多くも、ニューラル レンダリングとして知られる分野の AI モデルによって支えられています。
NVIDIA グラフィックス研究部門バイス プレジデント兼 Real-Time Graphics Research グループ責任者のアーロン レフォーン (Aaron Lefohn) は次のように述べています。「NVIDIA のコア レンダリング研究は、高度なフィジカル AI システムのトレーニングに使われる、現実に近い仮想世界の構築を支えています。一方で AI は、画像からそうした 3D 世界を生成する手助けもしているのです。今や私たちは、誰もが簡単に撮影できる写真やビデオといったアクセスしやすいメディアを使って、それらを迅速に仮想 3D 環境として再構築できる段階に到達しています」

3D を 2D に変換するフォワード レンダリング、および 2D を 3D に変換するインバース レンダリングに関するこの基盤となる研究は、物理的動作のシミュレーションにおける長年の研究と製品イノベーションによって補完されています。これには、フィドラーの Spatial Intelligence Lab での取り組みが含まれます。本日、このラボは、Dynamic Vision Lab と NVIDIA Isaac チームとの共同開発により、アマチュアのビデオ、ダッシュカム、またはシネマチックな映像から取得した映像データに基づき、カメラの運動を推定し、詳細な深度マップを生成するビデオ処理のための 3D 幾何学的アノテーション パイプライン、ViPe (Video Pose Engine)を発表しました。
ミンユ リュウの Deep Imagination Research グループは、NVIDIA Research の中で、コンピュータービジョン、Transformer、ビジュアル生成 AI モデルの先駆的な研究を進めてきたチームの一つです。これにより、フィジカル AI システムは、赤信号を無視して走ったときや、コップがテーブルの端に近づきすぎた場合に起こり得る結果など、世界の未来の状態を理解、予測できるようになります。
これらの取り組みは、今年初めに導入されたプラットフォーム、NVIDIA Cosmos の基盤を築きました。このプラットフォームは、基盤モデル、ポストトレーニング ライブラリ、高速なデータ処理とキュレーションのパイプラインにより、フィジカル AI 開発の加速を可能にします。
SIGGRAPH における NVIDIA Research
SIGGRAPH では、NVIDIA の研究者たちが、シミュレーション、AI によるレンダリング、3D コンテンツ生成に関する最新の成果を発表します。これらは、仮想世界の構築、ロボティクス開発、自動運転車のトレーニングなどへの応用が期待されています。
ある論文では、2D 画像やビデオから物理的整合性を考慮した 3D ジオメトリを再構築する際の課題への取り組みを取り上げています。多くのモデルは、ビデオ映像をもとに 3D オブジェクトを推定できますが、生成された 3D 形状は構造的な安定性に欠けることがよくあります。実際のオブジェクトに視覚的に近いものであっても、生成された形状にはわずかに不均一な比率や、ディテールが欠けていることがあり、物理的なリアリズムに影響を与える可能性があります。
たとえば、2D 映像から構築された椅子の 3D シミュレーションは、物理的に正確なシミュレーション環境に投入すると崩壊する可能性があります。これは、AI モデルが 3D 構造をグラウンドトゥルースに基づいて測定しているのではなく、視覚的な推定に基づいて構築しているためです。 本論文で紹介されている手法は、生成された 3D 形状が現実世界の物理法則を正確に再現し、このような問題を回避するのに役立ちます。これにより、フィジカル AI のトレーニング用に現実的な仮想世界を構築することが可能になります。
右:静止状態。左:シミュレーション。色はシミュレーションされた幾何形状における応力分布を示しています。動画で確認できるちらつきは、最適化プロセスの各イテレーションごとに適用されるランダムな擾乱によるものです。
別の論文では、物理的に正確な動きを用いて、シミュレーション キャラクターに命を吹き込む技術が紹介されています。研究者たちは、モーション ジェネレーターと物理ベースのトラッキング コントローラーを組み合わせ、パルクールの実践者によるスタントのような複雑な動きのために、リアルな合成データを生成しました。
このデータは、仮想キャラクターの開発や、実世界のトレーニング データではめったに見られない俊敏な運動スキルを備えたヒューマノイド ロボットの訓練に役立ちます。これにより、緊急対応を目的とした困難な地形の踏破など、ロボットが遂行できる物理的タスクの可能性が広がります。
光や素材のシミュレーションに伴う複雑な課題に取り組んだ論文もあります。
あるプロジェクトでは、アーティストがマテリアルのディテールを高めるための AI アシスタントをどのように作成できるかを紹介しています。拡散モデルと微分可能な物理ベースのレンダラーを活用することで、クリエイターは 3D オブジェクト表現に対してマテリアルのテクスチャ マップを簡単に変更できるようになります。これにより、シンプルなテキスト プロンプトで、より豊かでリアルな仮想世界を作り出すことができます。
チームは、従来のレンダリング手法では時間のかかる、風化や経年劣化といったリアルなオブジェクトのディテールを迅速に追加できるモデルの使い方をデモンストレーションしました。これらのオブジェクトは、ゲームなどのクリエイティブ アプリケーションや、ロボットや自動運転車のトレーニングに用いられるシミュレーションなどのフィジカル アプリケーション向けの仮想環境に組み込むことができます。
また、別の論文では、光のシミュレーションの分野における、微分可能なレンダリングに関する課題に取り組んでいます。この論文では、画像やビデオから 3D ジオメトリをより迅速かつ高精度に再構築できる、堅牢な微分可能可視性クエリが紹介されています。

この論文は、NVIDIA Research による、フォワード レンダリングとインバース レンダリングを統合し、合成データセット上でフィジカル AI モデルを正確にトレーニングするために不可欠なパラメーターを仮想世界から迅速に抽出する手法の一例です。
SIGGRAPH で NVIDIA Research の取り組みの詳細、およびフィドラー、レフォーン、リュウによる特別講演をご覧ください。