AI が物理的な進化を遂げる: 新しい NVIDIA NIM マイクロサービスがデジタル環境に生成 AI をもたらす

投稿者: Adam Scraba

生成物理 AI NIM マイクロサービスと NVIDIA Metropolis リファレンス ワークフローがインテリジェントで没入感のある作業環境の作成を支援

何百万人もの人々が、すでに文章作成や学習を支援するために生成 AI を使用しています。現在、このテクノロジは、物理的な世界をより効果的に活用するのにも役立ちます。

NVIDIA は SIGGRAPH において、インタラクティブなビジュアル AI エージェントを構築するための NVIDIA Metropolis リファレンス ワークフローや、開発者が物理的なマシンをトレーニングし、複雑なタスクの処理方法を改善するのに役立つ新しい NVIDIA NIM マイクロサービスなど、生成物理 AI の進歩を発表しました。

これらには、3D ワールド向けの NVIDIA の新しいディープラーニング フレームワークをサポートする 3 つの fVDB NIM マイクロサービスUniversal Scene Description (OpenUSD) を扱うための USD Code、USD Search、USD Validate NIM マイクロサービス が含まれます。

NVIDIA OpenUSD NIM マイクロサービスは、NVIDIA が開発した世界初の OpenUSD 開発用生成 AI モデルと連携して動作し、開発者が生成 AI コパイロットとエージェントを USD ワークフローに組み込み、3D ワールドの可能性を広げることを可能にします。

NVIDIA NIM マイクロサービスが物理 AI 環境を変革

物理 AI は、高度なシミュレーションと学習方法を使用して、ロボットや他の産業オートメーションが周囲の環境をより効果的に認識、推論、ナビゲートできるようにします。このテクノロジは、製造業やヘルスケアなどの業界を変革し、ロボット、工場や倉庫のテクノロジ、外科用 AI エージェント、より自律的かつ正確に動作できる自動車など、スマート スペースを進化させています。

NVIDIA は、特定のモデルや業界ドメインに合わせてカスタマイズされた幅広い NIM マイクロサービスを提供しています。物理 AI 向けにカスタマイズされた NVIDIA の NIM スイートは、音声と翻訳、視覚とインテリジェンス、リアルなアニメーションと動作のための機能をサポートしています。

NVIDIA NIM でビジュアル AI エージェントをビジョナリーに変える

ビジュアル AI エージェントは、コンピューター ビジョン機能を使用して、物理世界を認識して対話し、推論タスクを実行します。

非常に知覚的でインタラクティブなビジュアル AI エージェントは、ビジョン言語モデル (VLM) と呼ばれる新しいクラスの生成 AI モデルによって駆動されます。これは、物理的な AI ワークロードにおけるデジタル認識と現実世界の対話を橋渡しし、意思決定、精度、対話性、パフォーマンスの向上を可能にします。VLM を使用すると、開発者は複雑な環境でも困難なタスクをより効果的に処理できるビジョン AI エージェントを構築できます。

生成 AI を搭載したビジュアル AI エージェントは、病院、工場、倉庫、小売店、空港、交差点などで急速に導入されています。

物理 AI 開発者が高性能なカスタム ビジュアル AI エージェントをより簡単に構築できるように、NVIDIA は物理 AI 用の NIM マイクロサービスとリファレンス ワークフローを提供しています。ブログで説明があるように、NVIDIA Metropolis リファレンス ワークフローは、ビジュアル AI エージェントをカスタマイズ、構築、展開するためのシンプルで構造化されたアプローチを提供します。

NVIDIA NIM が K2K のパレルモ市の効率、安全性、セキュリティ向上を支援

イタリアのパレルモ市の交通管理者は、NVIDIA NIM を使用してビジュアル AI エージェントを展開し、道路管理の改善に役立つ物理的な洞察を発見しました。

NVIDIA Metropolis のパートナーである K2K が取り組みを主導し、NVIDIA NIM マイクロサービスと VLM を AI エージェントに統合して、市内のライブ交通カメラをリアルタイムで分析しています。市の職員はエージェントに自然言語で質問し、街頭の活動に関する迅速かつ正確な洞察や、信号のタイミング調整など、市の運営を改善する方法に関する提案を受け取ることができます。

世界有数の電子機器大手である FoxconnPegatron は、物理 AI、NIM マイクロサービス、および Metropolis リファレンス ワークフローを採用し、大規模な製造オペレーションをより効率的に設計および実行しています。

両社は、時間とコストを大幅に削減するために、シミュレーションで仮想工場を構築しています。また、実世界での展開前に、デジタル ツインで物理 AI (AI マルチカメラおよびビジュアル AI エージェントを含む) のより徹底したテストと改良を行い、作業員の安全性を向上させ、運用効率を高めています。

合成データ生成でシミュレーションと現実のギャップを埋める

多くの AI 主導の企業は現在、現実世界の産業オートメーションを含む生成物理 AI プロジェクトに「シミュレーション ファースト」アプローチを採用しています。

製造、工場物流、ロボティクスの企業は、複雑な人間労働者との相互作業、高度な設備、高価な機器を管理する必要があります。物理 AI および VLM NIM マイクロサービス、リファレンス ワークフロー、fVDB などを含む、NVIDIA の物理 AI ソフトウェア、ツール、プラットフォームは、現実世界の状況を正確に模倣するデジタル表現や仮想環境を作成するために必要な、非常に複雑なエンジニアリングを効率化するのに役立ちます。

VLM は、非常にリアルな画像を生成できるため、さまざまな業界で広く採用されています。ただし、正確な物理 AI モデルを作成するには膨大な量のデータが必要になるため、これらのモデルのトレーニングは困難です。

コンピューター シミュレーションを使用してデジタル ツインから生成される合成データは、実際のデータセットに代わる強力な手段となります。実際のデータセットは、ユース ケースによっては、モデルのトレーニング用に取得するには費用がかかり、場合によっては取得不可能になることもあります。

NVIDIA NIM マイクロサービスや Omniverse Replicator などのツールを使用すると、開発者は生成 AI 対応の合成データ パイプラインを構築して、物理 AI のトレーニング用の堅牢で多様なデータセットの作成を加速できます。これにより、VLM などのモデルの適応性とパフォーマンスが向上し、業界やユース ケース全体でより効果的に一般化できるようになります。

提供方法

開発者は、ai.nvidia.com から、NVIDIA が構築した最先端でオープンな基盤 AI モデルと NIM マイクロサービスにアクセスできます。Metropolis NIM リファレンス ワークフローは GitHub リポジトリ で入手可能で、Metropolis マイクロサービスは開発者プレビューでダウンロードできます。

OpenUSD NIM マイクロサービスは、NVIDIA API カタログを通じてプレビューでご利用いただけます。

SIGGRAPH での NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) による対談で、アクセラレーテッド コンピューティングと生成 AI がどのように業界を変革し、イノベーションと成長の新たな機会を生み出しているかをご覧ください。