- ロボットや自動運転車の開発専用に構築され、NVIDIA データセンター GPU 向けに最適化された、新たな最先端のモデル、ビデオ トークナイザー、高速データ処理パイプライン
- オープン モデルの第 1 波を開発者コミュニティに提供開始
- フィジカル AIのグローバル リーダーである 1X、Agile Robots、Agility、Figure AI、Foretellix、Uber、Waabi、XPENG が最初に採用
ラスベガス – CES – 2025 年 1 月 6 日 – NVIDIA は本日、自動運転車 (AV) や ロボットなどのフィジカル AI システムの開発を促進するために構築された最先端の生成世界基盤モデル、高度なトークナイザー、ガードレール、および高速ビデオ処理パイプラインで構成されるプラットフォーム、NVIDIA Cosmos™ を発表しました。
フィジカル AI モデルの開発にはコストがかかり、膨大な量の実世界のデータとテストが必要です。Cosmos 世界基盤モデル (WFM) は、開発者が既存のモデルをトレーニングおよび評価するための、大量のフォトリアルな物理ベースの合成データを簡単に生成する方法を提供します。開発者は、Cosmos WFM をファインチューニングしてカスタム モデルを構築することもできます。
Cosmos モデルは、ロボティクスおよび AV コミュニティの作業を加速するために、オープン モデル ライセンスの下で提供されます。開発者は、NVIDIA API カタログで最初のモデルをプレビューするか、NVIDIA NGC™ カタログまたは Hugging Face から一連のモデルとファインチューニング フレームワークをダウンロードできます。
1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi、XPENG などの大手ロボティクスおよび自動車会社、およびライドシェアリング大手の Uber が、Cosmos を最初に採用する企業に含まれます。
NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) は次のように述べています。「ロボティクスに ChatGPT の時代が到来しつつあります。大規模言語モデルと同様に、世界基盤モデルはロボットおよび AV 開発の進歩に不可欠ですが、すべての開発者が独自のモデルをトレーニングするための専門知識とリソースを持っているわけではありません。NVIDIAは、フィジカル AI を民主化し、一般的なロボティクスをすべての開発者が利用できるようにするために Cosmos を作成しました」
オープンな世界基盤モデルで AI の次の波を加速
NVIDIA Cosmos のオープン モデル スイートでは、開発者が対象アプリケーションのニーズに応じて、走行するAV や倉庫内を移動するロボットの録画映像などのデータセットを使用し、WFM をカスタマイズすることができます。
Cosmos WFM は、フィジカル AI の研究開発専用に構築されており、テキスト、画像、ビデオなどの入力とロボット センサーまたはモーション データの組み合わせから物理ベースのビデオを生成できます。モデルは、物理ベースのインタラクション、オブジェクトの永続性、倉庫や工場などのシミュレートされた産業環境やさまざまな道路状況を含む運転環境の高品質な生成を目的として構築されています。
CES の基調講演で、NVIDIA の創業者/CEO であるジェンスン フアンは、フィジカル AI 開発者による Cosmos モデルの使用例を紹介しました。これには以下のものが含まれます。
- ビデオ検索と理解:開発者は、雪道の状況や倉庫の混雑など、ビデオ データから特定のトレーニング シナリオを簡単に見つけることが可能になります。
- 物理ベースのフォトリアルな合成データ生成:Cosmos モデルを使用し、NVIDIA Omniverse™ プラットフォームで開発された制御された 3D シナリオからフォトリアルなビデオを生成することができます。
- フィジカル AI モデルの開発と評価:基盤モデル上にカスタム モデルを構築したり、強化学習のために Cosmos を使用してモデルを改善したり、または特定のシミュレーション シナリオでのパフォーマンスをテストする場合などに活用できます。
- 先見性と「マルチバース」シミュレーション:Cosmos と Omniverse を使用して、AI モデルが取る可能性のあるすべての将来の結果を生成し、最善かつ最も正確なパスを選択可能にします。
高度な世界モデル開発ツール
フィジカル AI モデルを構築するには、ペタバイト単位のビデオ データと、そのデータの処理、キュレーション、ラベル付けに数万時間の計算時間が必要です。データのキュレーション、トレーニング、モデルのカスタマイズにかかる膨大なコストを節約するために、Cosmos には次の機能が含まれます:
- NVIDIA NeMo™ Curator を搭載した NVIDIA AI および CUDA® アクセラレーテッド データ処理パイプライン。これにより、開発者は CPU のみのパイプラインを使用した場合に 3年以上かかる 2,000 万時間分のビデオの処理、キュレーション、ラベル付けを、NVIDIA Blackwell プラットフォームを使用して 14 日間で行えるようになります。
- NVIDIA Cosmos Tokenizer:画像やビデオをトークンに変換する最先端のビジュアル トークナイザーです。今日の主要なトークナイザーよりも 8 倍の総圧縮率と 12 倍の処理速度を実現します。
- NVIDIA NeMo:非常に効率的なモデルのトレーニング、カスタマイズ、最適化のためのフレームワークです。
世界最大のフィジカル AI 業界が Cosmos を採用
フィジカル AI 業界のパイオニアたちはすでに Cosmos テクノロジを採用しています。
AI およびヒューマノイド ロボット企業である 1X は、Cosmos Tokenizer を使用して 1X World Model Challenge データセットを立ち上げました。XPENG は Cosmos を使用してヒューマノイド ロボットの開発を加速します。また、Hillbot と SkildAI は Cosmos を使用して汎用ロボットの開発を加速しています。
Agility の最高技術責任者である Pras Velagapudi 氏は次のように述べています。「データの不足と変動性は、ロボット環境での学習を成功させる上で重要な課題です。Cosmos のテキスト、画像、ビデオを世界に変換する機能により、さまざまなタスクでフォトリアルなシナリオを生成および拡張でき、高価な現実世界のデータ キャプチャをそれほど必要とせずにモデルのトレーニングに使用可能になります」
交通業界のリーダーたちも、AV 向けのフィジカル AI の構築に Cosmos を使用しています。
- 物理世界向けの生成 AI のパイオニアである Waabi は、AV ソフトウェアの開発とシミュレーション用のビデオ データの検索とキュレーションに Cosmos を使用しています。
- 自動運転用の AI 基盤モデルを開発している Wayve は、安全性と検証に使用されるエッジ ケースとコーナー ケースの運転シナリオを検索するツールとして Cosmos を評価しています。
- AV ツールチェーン プロバイダーの Foretellix は、忠実度の高いテスト シナリオとトレーニング データを大規模に評価および生成するため、NVIDIA Omniverse Sensor RTX API とともに Cosmos を使用しています。
- 世界的なライドシェアリング大手の Uber は、自律移動を加速するために NVIDIA と提携しています。Uber の豊富な運転データセットと、Cosmos プラットフォームおよび NVIDIA DGX Cloud™ の機能を組み合わせることで、AV パートナーはより強力な AI モデルをさらに効率的な状態で構築可能になります。
Uber の CEO である Dara Khosrowshahi 氏は次のように述べています。「生成 AI は、豊富なデータと非常に強力なコンピューティングの両方を必要とするモビリティの未来を推進します。NVIDIA と協力することで、業界向けの安全でスケーラブルな自動運転ソリューションのタイムラインを大幅に加速できると確信しています」
オープンで安全、かつ責任ある AI の開発
NVIDIA Cosmos は、プライバシー、安全性、セキュリティ、透明性、不要な偏見の削減を優先する NVIDIA の信頼できる AI の原則に沿って開発されました。
信頼できる AI は、開発者コミュニティ内でイノベーションを促進し、ユーザーの信頼を維持するために不可欠です。NVIDIA は、米国政府の自主的な AI コミットメントやその他のグローバル AI 安全イニシアチブに沿って、安全で信頼できる AI に取り組んでいます。
オープンな Cosmos プラットフォームには、有害なテキストや画像を軽減するように設計されたガードレールが含まれており、テキスト プロンプトの精度を高めるツールを備えています。NVIDIA API カタログの Cosmos 自己回帰モデルと拡散モデルで生成されたビデオには、AI によって生成されたコンテンツを識別するための目に見えない透かしが含まれており、誤報や誤帰属の可能性を減らすのに役立ちます。
NVIDIA は、開発者が信頼できる AI プラクティスを採用し、アプリケーションのガードレールと透かしソリューションをさらに強化することを推奨しています。
提供予定
Cosmos WFM は、Hugging Face および NVIDIA NGC カタログで NVIDIA のオープン モデル ライセンスに基づいて現在提供されています。Cosmos モデルは、完全に最適化された NVIDIA NIM マイクロサービスとしてまもなく提供される予定です。
開発者は、NVIDIA NeMo Curator にアクセスしてビデオ処理を高速化し、NVIDIA NeMo を使用して独自の世界モデルをカスタマイズできます。NVIDIA DGX™ Cloud は、これらのモデルを迅速かつ簡単に展開する方法を提供し、NVIDIA AI Enterprise ソフトウェア プラットフォームを通じてエンタープライズ サポートを利用できます。
NVIDIA はさらに、開発者がヘルスケア、金融サービス、製造などのエンタープライズ AI ユース ケースに使用できる新しい NVIDIA Llama Nemotron 大規模言語モデルとNVIDIA Cosmos Nemotron 視覚言語モデル を発表しました。
NVIDIA について
NVIDIA (NASDAQ: NVDA) はアクセラレーテッド コンピューティングの世界的リーダーです。
NVIDIA Cosmos、NVIDIA API カタログ、NVIDIA Omniverse プラットフォーム、NVIDIA AI、NVIDIA CUDA、 NVIDIA NeMo Curator, NVIDIA Blackwell プラットフォーム、NVIDIA Cosmos Tokenizer、NVIDIA NeMoフレームワーク、NVIDIA DGX Cloud、NVIDIA AI Enterprise ソフトウェア プラットフォームなどNVIDIAの製品、サービスおよびテクノロジの利点、影響、パフォーマンス、NVIDIAの製品やテクノロジを使用もしくは採用するサードパーティ、彼らのオファリングの利点とその影響、オファリングの特長、パフォーマンス、そして提供予定、ロボティクスに ChatGPT の時代が到来しつつあることなど、(ただし、これらに限定されません)、本プレス リリースに記載されている記述の中には、将来予測的なものが含まれており、予測とは著しく異なる結果を生ずる可能性があるリスクと不確実性を伴っています。かかるリスクと不確実性は、世界的な経済環境、サードパーティに依存する製品の製造・組立・梱包・試験、技術開発および競合による影響、新しい製品やテクノロジの開発あるいは既存の製品やテクノロジの改良、NVIDIA 製品や協業企業の製品の市場への浸透、デザイン・製造あるいはソフトウェアの欠陥、ユーザーの嗜好および需要の変化、業界標準やインターフェイスの変更、システム統合時に NVIDIA 製品および技術の予期せぬパフォーマンスにより生じる損失などを含み、その他のリスクの詳細に関しては、Form 10-K での NVIDIA のアニュアル レポートならびに Form 10-Q での四半期レポートなど、米証券取引委員会 (SEC) に提出されている NVIDIA の報告書に適宜記載されます。SEC への提出書類は写しが NVIDIA の Web サイトに掲載されており、NVIDIA から無償で入手することができます。これらの将来予測的な記述は発表日時点の見解に基づくものであって将来的な業績を保証するものではなく、法律による定めがある 場合を除き、今後発生する事態や環境の変化に応じてこれらの記述を更新する義務を NVIDIA は一切負いません。
本リリースに記載されている製品や機能の多くはまだ様々な段階にあり、利用可能になった時点で提供される予定です。記述は、コミットメント、約束、または法的義務として意図されたものではなく、またそう解釈されるべきでもありません。また、NVIDIA製品について説明された特徴や機能の開発、リリース、および時期は変更される可能性があり、NVIDIA単独の裁量に委ねられます。NVIDIAは、ここに記載された製品、特徴または機能の不提供または遅延について、いかなる責任も負いません。
© 2025 NVIDIA Corporation. 著作権はNVIDIAに帰属します。NVIDIA、NVIDIAロゴ、CUDA、DGX、NGC、NVIDIA Cosmos、NVIDIA NeMo、NVIDIA Omniverseは、米国およびその他の国におけるNVIDIA Corporationの商標および/または登録商標です。その他の企業名および製品名は、関連する各社の商標である可能性があります。機能、価格、入手可能性および仕様は、予告なく変更される場合があります。