Capgemini によれば、AI エージェントは 2028 年までに収益の増加とコストの削減により最大 4,500 億ドルもの利益をもたらすと見込まれています。これらのエージェントを構築する開発者は、AI エージェント プラットフォームとフィジカル AI システムをより優れたものにするため、よりパフォーマンスに優れたリーズ二ング モデルに目を向けています。
SIGGRAPH で、NVIDIA はリーズ二ング機能を備えた 2 つのモデル ファミリーである NVIDIA Nemotron と NVIDIA Cosmos の拡張を発表しました。さまざまな業界のリーダーたちはこれらを使用して、AI エージェントとヒューマノイド ロボットのチームを通じ生産性を高めることになります。
CrowdStrike、Uber、Magna、NetApp、Zoom は、これらのモデル ファミリーを活用している代表的な企業です。
新しい NVIDIA Nemotron Nano 2 と Llama Nemotron Super 1.5 モデルは、科学的リーズ二ング、数学、コーディング、ツール呼び出し、Instruction Following (自然言語による指示の遵守)、チャットなどで、それぞれのサイズのカテゴリで最高の精度を提供します。これらの新しいモデルにより、AI エージェントがより深く考え、より効率的に作業できるようになります。設定された時間内でより幅広く選択肢を検索し、研究を高速化し、よりスマートな結果を導き出します。
モデルを AI エージェントの脳と考えることができます。つまり、コアとなるインテリジェンスを提供するのです。しかし、この脳をビジネスに役立てるためには、業界やビジネス用語に加えて特定のワークフローを理解し、安全に動作するようこの脳をエージェントに組み込む必要があります。NVIDIA は、AI エージェントのオンボーディング、カスタマイズ、制御を大規模に行うため、主要なライブラリと AI ブループリントを使用して、企業がこのギャップを埋めるための支援を行います。
Cosmos Reason は、フィジカル AI アプリケーション用の新しいリーズ二ング向け視覚言語モデル (VLM) です。これは、現実世界の仕組みを理解し、構造化されたリーズ二ングを使用して物理学、物体の永続性、時空の整列などの概念を理解するのに優れています。
Cosmos Reason は、ロボット向け視覚言語アクション (VLA) モデルのリーズニング バックボーンとして機能するほか、ロボティクスや自動運転車のトレーニング データを検証、キャプションするために特別に構築されたものです。ランタイムの視覚 AI エージェントに、工場や都市などでの物理操作の時空理解とリーズニングを提供できるようなります。
Nemotron: エージェント型エンタープライズ AI 向けの最高の精度と効率性
企業は AI エージェントを開発して、複雑で複数のステップを持つタスクに対処するため、効率的なトークン生成で強力なリーズ二ング精度を提供するモデルにより、大規模にインテリジェントで自律的な意思決定が可能になります。
NVIDIA Nemotron は、先進的なオープン リーズ二ング モデルのファミリーです。このモデルは、主要なモデル、NVIDIA がキュレーションを行ったオープン データセット、高度な AI テクノロジを使用することで、AI エージェントに正確で効率的な出発点を提供します。
最新の Nemotron モデルは次の 3 つの方法で優れた効率性を実現します。新しいハイブリッド モデル アーキテクチャ、コンパクトな量子化モデル、そして、開発者がトークン生成を制御できるようにする設定可能な思考予算です。これにより、リーズニング コストが 60% 削減されます。この組み合わせにより、追加の時間やコンピューティング パワーを必要とすることなく、モデルはより深いリーズ二ングとより迅速な反応が可能になります。つまり、より低いコストでより良い結果を得られるということです。
Nemotron Nano 2 は、同じ規模の他の主要モデルと比較して、最大 6 倍高いトークン生成能力を提供します。
Llama Nemotron Super 1.5 は、優れたパフォーマンスとこのクラス最高のリーズ二ング精度を実現し、AI エージェントがより優れたリーズ二ングを行い、よりスマートな意思決定をし、複雑なタスクを独立して処理できるようにします。 これは現在、NVFP4 (4 ビット浮動小数点) で利用できます。これは、NVIDIA B200 GPU で、NVIDIA H100 GPU と比較して最大 6 倍高いスループットを実現します。
上のグラフは、Nemotron モデルが同じ時間内で、また同じコンピューティング予算で最高のリーズ二ング精度を実現し、1 ドルあたり最高の精度を実現していることを示しています。
2 つの新しい Nemotron モデルに加えて、NVIDIA 初のオープン VLM トレーニング データセットである Llama Nemotron VLM Dataset v1 も発表します。これには、以前にリリースされた Llama 3.1 Nemotron Nano VL 8B モデルを支える光学文字認識、ビジュアル QA、キャプション データの 300 万のサンプルが含まれています。
リーズニング モデルの正確さに加えて、エージェントは検索拡張生成にも依存しています。これにより、さまざまなソースの接続されたデータから最新かつ最も関連性の高い情報を取得し、情報に基づいた意思決定を下すことができます。最近リリースされた Llama 3.2 NeMo Retriever 埋め込みモデルは、エージェント システムの精度の向上で、3 つのビジュアル ドキュメント検索リーダーボード (ViDoRe V1、ViDoRe V2、MTEB VisualDocumentRetrieval) で首位を獲得しています。
これらのリーズ二ングと情報検索モデルを使用することで、AI-Q NVIDIA Blueprint を使用して構築されたディープ リサーチ エージェントは現在、DeepResearch Bench でオープンかつポータブルなエージェントとして 1 位となっています。
NVIDIA NeMo と NVIDIA NIM マイクロサービスは、エージェント システムの開発とデプロイからモニタリングと最適化に至るまで、AI エージェントのライフサイクル全体をサポートします。
Cosmos Reason: フィジカル AI におけるブレイクスルー
VLM は、コンピューター ビジョンとロボティクスにとってのブレイクスルーとなり、これにより、機械が物体やパターンを認識できるようになりました。しかし、非リーズ二ング的な VLM には現実世界を理解し、相互に作用する能力はありません。つまり、曖昧さや新しい経験を処理したり、複雑で複数のステップを伴うタスクを解決したりはできないのです。
NVIDIA Cosmos Reason は、フィジカル AI とロボティクス向けの、オープンでカスタマイズ可能な 70 億のパラメータを持つ新しいリーズ二ング VLM です。Cosmos Reason により、ロボットと視覚 AI エージェントが人間のようにリーズ二ングできるようになります。つまり、事前の知識、物理的な理解、常識を使用して物理世界を理解し行動できるようになるのです。
Cosmos Reason により、トレーニング データの評価とキャプションの作成、ロボットの意思決定、ビデオ分析 AI エージェントなど、ロボティクスとフィジカル AI アプリケーション全体で高度な機能が可能になります。
これは、大規模で多様なトレーニング データセットのキュレーションとアノテーションを自動化するのに役立ち、高精度な AI モデルの開発を加速できます。また、ロボット計画のための高度なリーズ二ング エンジンとしても機能し、新たな環境でも、複雑な指示を解析して VLA モデル用に実行可能なステップに変換します。
また、これは、NVIDIA Metropolis プラットフォームによって可能になった NVIDIA Blueprint for video search and summarization (VSS) 上に構築されたビデオ分析 AI エージェントにも活用されています。これは、保存済みあるいはライブのビデオ データから価値あるインサイトを探り出します。視覚認識能力を持ち、インタラクティブなこれらの AI エージェントは、異常を検知することで、工場、倉庫、小売店、空港、交差点などでの業務を合理化するのに役立ちます。
NVIDIA のロボティクス研究チームは、Cosmos Reason をデータのフィルタリングとキュレーションに使用しています。また、GR00T NX の次期バージョンなどの VLA モデルの背後にある「System 2」リーズ二ング VLM としても活用しています。
あらゆる場所での AI エージェントとロボットのための NVIDIA リーズ二ング モデル
さまざまな企業とコンサルティング リーダーたちが、NVIDIA の最新のリーズ二ング モデルを採用しています。サイバーセキュリティから通信にいたる幅広い分野のリーダーたちが、Nemotron を使用してエンタープライズ AI エージェントを構築しています。
Zoom は、Nemotron のリーズ二ング モデルを Zoom AI Companion と組み合わせて意思決定を行い、複数のステップがあるタスクを管理し、Zoom Meetings、Zoom Chat、Zoom Docs でユーザーのためのアクションを実行します。
CrowdStrike は現在、Charlotte AI エージェントが CrowdStrike Falcon プラットフォーム上でクエリを記述できるようにするため、Nemotron モデルをテストしています。
Amdocsは、amAIz Suite において NVIDIA Nemotron モデルを活用し、ケア、販売、ネットワーク、カスタマー サポートにわたる複雑な多段階自動化を処理する AI エージェントを実行しています。
EY は、高いスループットを考慮して Nemotron Nano 2 を採用し、税務、リスク管理、財務のユースケース用に大規模組織でのエージェント AI をサポートしています。
NetApp は現在、AI エージェントがビジネスデータを検索し分析できるように、Nemotron リーズ二ングモデルをテスト中です。
DataRobot は、エンドツーエンドのエージェント ライフサイクル管理を目的とした Agent Workforce Platform において、Nemotronモデルを活用しています。
Tabnine は、開発者の代わりにコーディング タスクの提案と自動化を行うため、Nemotronモデルを活用しています。
Automation Anywhere、CrewAI および Dataiku は、Nemotron のモデルを自社のプラットフォームに統合する企業の仲間入りをしました。
輸送、安全、AI インテリジェンス分野の主要な企業は、Cosmos Reason を活用して自動運転、ビデオ解析、道路および職場の安全性の向上を推進しています。
Uber は、自動運転車の動作を分析するために Cosmos Reason を検討しています。さらに、Uber は Cosmos Reason のポスト トレーニングを行い、視覚データを要約し、歩行者が高速道路を横断するなどのシナリオを分析することで、品質の分析を行い、自動運転の動作に情報を提供します。
Cosmos Reason は、自律走行車の頭脳としても機能します。ロボットが環境を解釈し、複雑な命令を受け取った場合、それらをタスクに分解し、常識を応用して実行する能力を提供します。これにより、未知の環境下でも適切な判断と行動が可能になります。
Centific は、AI を活用したビデオ インテリジェンス プラットフォームを強化するために、Cosmos Reason をテストしています。VLM を使用すると、プラットフォームは複雑なビデオ データをアクション可能なインサイトに変換できるようになります。これにより、誤検知を減らし、意思決定を効率化できます。
VAST は、NVIDIA Cosmos Reason を同社の AI オペレーティング システムと使用して、リアルタイムの都市インテリジェンスを推進し、大量のビデオ ストリームを大規模に処理しています。VSS Blueprint を使用することで、VAST はインシデントを特定して対応を開始するエージェントを構築できます。これにより、ビデオ ストリームとメタデータをアクション可能な、予防的な公共安全ツールに変えることができます。
Ambient.ai は、Cosmos Reason の時間的、物理認識リーズ二ングを使用して、個人用保護具の紛失を自動的に検知し、危険な状況をモニタリングし、建設、製造、物流などの産業環境全体で EHS (環境、健康、安全) を強化するのに役立てます。
Magna は、City Delivery Platform の一部として Cosmos Reason を活用した開発を進めています。このプラットフォームは、完全自律型で低コストの即時配送ソリューションであり、車両が新しい都市環境に迅速に適応できるよう支援することを目的としています。Cosmos Reason は、車両の長期的な経路計画に世界に対する理解の機能を追加しています。
これらのモデルは NVIDIA NIM マイクロサービスとして利用可能となる予定で、最大限のプライバシーと制御を確保するために、いずれの NVIDIA アクセラレーテッド インフラにも安全で信頼性の高いデプロイが可能です。また、これらのモデルは、近日中にAmazon Bedrock および Amazon SageMaker AI for Nemotron models、さらに、Azure AI Foundry、Oracle Data Science Platform、および Google Vertex AI を通じて利用可能になる予定です。
build.nvidia.com から Cosmos Reason を試すか、Hugging Face もしくは GitHub からダウンロードしてください。
Nemotron Nano 2 と Llama Nemotron Super 1.5 (NVFP4) は、まもなくダウンロードできるようになります。こちらから Nemotron モデルの詳細や、以前のバージョンのダウンロードについてご覧ください。
Llama Nemotron VLM Dataset v1 は HuggingFace からダウンロードしてください。
ソフトウェア製品に関するお知らせをご確認ください。