- 新しいモデルが、フィジカル AIの予測、制御可能な世界の生成、リーズ二ングを可能に
- 2 つの新しいブループリントがロボットと自動運転車の事後トレーニング向けの膨大なフィジカル AI 合成データ生成を提供
- 初期の採用企業は、1X、Agility Robotics、Figure AI、Skild AI
【プレス リリース】カリフォルニア州サンノゼ – GTC- 2025 年 3 月 18 日 – NVIDIA は本日、新しい NVIDIA Cosmos™ 世界基盤モデル (WFM) のメジャー リリースを発表しました。これは、フィジカル AI 開発向けのオープンで完全にカスタマイズ可能なリーズ二ング モデルであり、開発者のために世界生成における完全な制御を可能にします。
NVIDIA はまた、NVIDIA Omniverse™ と Cosmos プラットフォームを活用した 2 つの新しいブループリントを発表しました。これらは、事後トレーニングのためのロボットと自動運転車向けの大規模で制御可能な合成データ生成エンジンを開発者に提供します。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI、Uber などの業界の主要な企業は、フィジカル AI 向けのより豊富なトレーニング データをより迅速かつ大規模に生成するために、Cosmos の最初の採用企業となりました。
NVIDIAの創業者/CEOであるジェンスン フアン (Jensen Huang) は次のように述べています。「大規模言語モデルが生成およびエージェント型 AI に革命をもたらしたように、Cosmos の世界基盤モデルはフィジカル AI にとって画期的な進歩です。Cosmos は、フィジカル AI 向けのオープンで完全にカスタマイズ可能なリーズ二ング モデルを提供し、ロボティクスと物理産業における段階的な機能の進歩の機会を解き放ちます。」
合成データ生成のための Cosmos Transfer
Cosmos Transfer WFM は、セグメンテーション マップ、深度マップ、LiDAR スキャン、姿勢推定マップ、軌跡マップなどの構造化されたビデオ入力を取り込み、制御可能でフォトリアルなビデオ出力を生成します。
Cosmos Transfer は、認識 AI トレーニングを効率化し、Omniverse で作成された 3D シミュレーションやグラウンド トゥルースをフォトリアルなビデオに変換し、大規模で制御可能な合成データ生成を行います。
Agility Robotics は、ロボット モデルのトレーニングに使用される大規模な合成データ生成のために、Cosmos Transfer と Omniverse を早期に導入します。
Agility Robotics の最高技術責任者である Pras Velagapudi 氏は次のように述べています。「Cosmos は、実世界で収集できる範囲を超えて、フォトリアルなトレーニング データを拡張する機会を提供します。当社がすでに持っている物理ベースのシミュレーション データを最大限に活用しながら、このプラットフォームでどのような新しいパフォーマンスを引き出すことができるか、楽しみにしています。」
自動運転車シミュレーション用の NVIDIA Omniverse Blueprint は、Cosmos Transfer を使用して、物理ベースのセンサー データのバリエーションを増幅しています。 Foretellix は、このブループリントを利用することで、多様な運転データセットに対して天候や照明などのさまざまな条件を調整し、行動シナリオを強化しています。 また、Parallel Domain はこのブループリントを使用して、自社のセンサー シミュレーションに同様のバリエーションを適用しています。
合成操作モーション生成のための NVIDIA GR00T Blueprint は、Omniverse と Cosmos Transfer を組み合わせることで、多様なデータセットを大規模に生成します。OpenUSD を利用したシミュレーションを通じて、データ収集と拡張時間を数日から数時間に短縮することができます。
インテリジェントな世界の生成のための Cosmos Predict
1 月に開催された CES トレードショーで発表された Cosmos Predict WFM は、テキスト、画像、動画などのマルチモーダル入力から仮想世界の状態を生成します。新しい Cosmos Predict モデルは、開始および終了の入力画像が与えられた場合に中間アクションやモーションの軌跡を予測するマルチフレーム生成を可能にします。事後トレーニング向けに特別に設計されたこれらのモデルは、NVIDIA が一般公開しているフィジカル AI データセットを使用してカスタマイズできます。
NVIDIA Grace Blackwell NVL72 システムの推論計算能力と、その大規模な NVIDIA NVLink™ ドメインを活用することで、開発者はリアルタイムな世界生成を達成できます。
1X は、Cosmos Predict と Cosmos Transfer を使用して、新しいヒューマノイド ロボット 、NEO Gamma をトレーニングしています。 ロボットの頭脳を開発する Skild AI は、ロボット向けの合成データセットを増強するために、Cosmos Transfer を活用しています。さらに、Nexar と Oxa は、Cosmos Predict を使用して自社の自動運転システムをさらに発展させています。
フィジカル AI のためのマルチモーダル リーズニング
Cosmos Reason は、時空認識を備えたオープンで完全にカスタマイズ可能な WFM です。思考連鎖のリーズ二ングを用いてビデオ データを理解し、人が横断歩道に足を踏み出す場合や、箱が棚から落ちる場合などの相互作用の影響を自然言語で予測します。
開発者は、Cosmos Reason を使用して、フィジカル AI データのアノテーションとキュレーションを向上させ、既存の世界基盤モデルを強化し、新しい視覚言語アクション モデルを作成することができます。また、事後トレーニングして、フィジカル AI にタスクを完了するために必要なことを指示するハイレベル プランナーを構築することもできます。
フィジカル AI のデータ キュレーションと事後トレーニングを高速化
ダウンストリーム タスクに基づいて、開発者はネイティブ PyTorch スクリプトまたは NVIDIA DGX™ Cloud 上の NVIDIA NeMo™ フレームワークを使用して、Cosmos WFM を事後トレーニングできます。
Cosmos の開発者は、DGX Cloud 上の NVIDIA NeMo Curator を使用して、データ処理とキュレーションを高速化することもできます。Linker Vision と Milestone Systems は、大量の動画データのキュレーションにこの機能を利用し、動画検索と要約のための NVIDIA AI Blueprint 上に構築されたビジュアル エージェント向けの大規模視覚言語モデルをトレーニングしています。Virtual Incision は将来の手術用ロボットへの導入を検討しており、Uber と Waabi は Nemo Curator を活用することで自動運転車の開発を推進しています。
責任ある AI とコンテンツの透明性を推進
NVIDIA の信頼可能な AI 原則に沿って、NVIDIA はすべての Cosmos WFM でオープンなガードレールを適用しています。さらに、NVIDIA は Google DeepMind と協力して SynthID を統合し、build.nvidia.com で公開している Cosmos WFM NVIDIA NIM™ マイクロサービスから、AI が生成した出力に透かしを追加し、識別を支援します。
提供予定
Cosmos WFM は、NVIDIA API カタログでプレビュー可能であり、Google Cloud 上の Vertex AI Model Garden に掲載されています。 Cosmos Predict と Cosmos Transfer は、Hugging Face と GitHub で一般公開されています。 Cosmos Reason は早期アクセスで利用可能です。
詳細については、NVIDIA GTC の基調講演のリプレイや、NVIDIA Research の生成 AI 担当バイス プレジデントである Ming-yu Liuによる「Cosmos 世界基盤モデル入門」など、NVIDIA と業界のリーダー企業による Cosmos のセッションをご視聴ください。
NVIDIA について
NVIDIA (NASDAQ: NVDA) はアクセラレーテッド コンピューティングの世界的なリーダーです。
NVIDIAの製品、サービスおよびテクノロジの利点、影響、パフォーマンス、サードパーティによるNVIDIAのの製品やテクノロジの採用とその利点、影響、Cosmosがロボットとフィジカル業界における段階的な機能の進歩の機会を解き放つことなど、(ただし、これらに限定されません)、本プレス リリースに記載されている記述の中には、将来予測的なものが含まれており、予測とは著しく異なる結果を生ずる可能性があるリスクと不確実性を伴っています。かかるリスクと不確実性は、世界的な経済環境、サードパーティに依存する製品の製造・組立・梱包・試験、技術開発および競合による影響、新しい製品やテクノロジの開発あるいは既存の製品やテクノロジの改良、NVIDIA 製品や協業企業の製品の市場への浸透、デザイン・製造あるいはソフトウェアの欠陥、ユーザーの嗜好および需要の変化、業界標準やインターフェイスの変更、システム統合時に NVIDIA 製品および技術の予期せぬパフォーマンスにより生じる損失などを含み、その他のリスクの詳細に関しては、Form 10-K での NVIDIA のアニュアル レポートならびに Form 10-Q での四半期レポートなど、米証券取引委員会 (SEC) に提出されている NVIDIA の報告書に適宜記載されます。SEC への提出書類は写しが NVIDIA の Web サイトに掲載されており、NVIDIA から無償で入手することができます。これらの将来予測的な記述は発表日時点の見解に基づくものであって将来的な業績を保証するものではなく、法律による定めがある 場合を除き、今後発生する事態や環境の変化に応じてこれらの記述を更新する義務を NVIDIA は一切負いません。
© 2025 NVIDIA Corporation. 著作権はNVIDIAに帰属します。NVIDIA、NVIDIA ロゴ、NVIDIA Cosmos、NVIDIA DGX, NVIDIA NeMo、NVIDIA NIM, NVIDIA Omniverse は、米国およびその他の国におけるNVIDIA Corporationの商標および/または登録商標です。その他の企業名および製品名は、関連する各社の商標である可能性があります。機能、価格、入手可能性および仕様は、予告なく変更される場合があります。