新しい NVIDIA Nemotron 3 Super がエージェント型 AI のスループットを 5 倍向上

NVIDIA Blackwell 向けに最適化された、新しいオープンな 1,200 億パラメータのハイブリッド型混合エキスパート モデルは、自律型エージェントのワークフローを遅らせる長時間思考とコンテキスト爆発のコストに対処
投稿者: Kari Briski

今週発表された NVIDIA Nemotron 3 Super は、複雑なエージェント型 AI システムを大規模に実行するために設計された、120 億のアクティブ パラメータを備えた 1200 億パラメータのオープンモデルです。

現在利用可能な本モデルは、高度なリーズニング機能を組み合わせることで、自律型エージェントがタスクを効率的に、かつ高精度に完了できるようにします。

AI ネイティブ企業:Perplexity は、検索用および Computer の 20 のオーケストレーション モデルの 1 つとして、Nemotron 3 Super へのアクセスをユーザーに提供します。CodeRabbit、Factory、Greptile などのソフトウェア開発エージェントを提供する企業は、独自モデルと共にこのモデルを AI エージェントに統合することで、低コストでより高い精度を実現しています。また、Edison Scientific や Lila Sciences といったライフサイエンスや最先端 AI 企業は、自社のエージェントを深層文献検索、データサイエンス、分子理解に活用しています。

エンタープライズ ソフトウェア プラットフォーム:Amdocs、Palantir、Cadence、Dassault Systèmes、Siemens といった業界のリーダーは、このモデルを展開、カスタマイズし、通信、サイバーセキュリティ、半導体設計、製造分野のワークフローを自動化しています。

企業がチャットボットの枠を超え、マルチエージェント アプリケーションへと移行するにつれ、2 つの制約に直面します。

1 つ目はコンテキスト爆発です。マルチエージェント ワークフローでは、各インタラクションでツールの出力や中間リーズニングを含む完全な履歴を再送信する必要があるため、標準的なチャットの最大 15 倍のトークンが生成されます。

長時間のタスクでは、この大量のコンテキストによってコストが増加し、エージェントが本来の目的から逸脱するゴール ドリフトにつながる可能性があります。

2 つ目はシンキング タックスです。複雑なエージェントは各ステップでリーズニングを行う必要がありますが、すべてのサブタスクに大規模なモデルを使用すると、マルチエージェント アプリケーションはコストが高すぎて動作が遅くなり、実用的なアプリケーションには適しません。

Nemotron 3 Super は 100 万トークンのコンテキスト ウィンドウを備えており、エージェントはワークフローの状態全体をメモリに保持できるため、ゴール ドリフトを防止できます。

Nemotron 3 Super は、同規模のモデルの中でトップクラスの精度を実現し、効率性とオープン性に関する Artificial Analysis において首位の座を獲得し、新たな基準を確立しました。

本モデルはまた、NVIDIA AI-Q リサーチ エージェントを DeepResearch Bench および DeepResearch Bench II のリーダーボードで 1 位に押し上げました。これらのベンチマークは、リーズニングの一貫性を維持しながら、大規模なドキュメント セット全体にわたって徹底的な多段階のリサーチを実行する AI システムの能力を測定するものです。

ハイブリッド アーキテクチャ

Nemotron 3 Super は、3 つの主要なイノベーションを組み合わせたハイブリッド型混合エキスパート アーキテクチャを採用し、従来の Nemotron Super モデルと比較して最大 5 倍のスループットと最大 2 倍の精度を実現します。

  • ハイブリッドアーキテクチャ:Mamba レイヤーはメモリと計算効率を 4 倍向上させ、Transformer レイヤーは高度なリーズニング処理を駆動
  • MoE: 1200 億のパラメータのうち、推論時にアクティブになるのはわずか 120 億パラメータのみです
  • 潜在 MoE:推論時に次のトークンを生成するために、1 つ分のコストで 4 つの専門のスペシャリストをアクティブにすることで、精度を向上させる新技術
  • マルチトークン予測:複数の未来の単語を同時に予測することで、推論速度を 3 倍に向上

NVIDIA Blackwell プラットフォームでは、このモデルは NVFP4 精度で動作します。これによりメモリ要件が削減され、NVIDIA Hopper 上の FP8 と比較して精度を損なうことなく最大 4 倍の速度で推論を実行できます。

オープン ウェイト、データ、レシピ

NVIDIA は、パーミッシブ ライセンスに基づき、オープン ウェイトとして Nemotron 3 Super をリリースします。開発者は、ワークステーション、データセンター、またはクラウドに展開およびカスタマイズできます。

このモデルは、最先端のリーズニング モデルを用いて生成された合成データでトレーニングされました。NVIDIA は、10 兆トークンを超える事前トレーニングおよび事後トレーニングのデータセット、強化学習用の 15 のトレーニング環境、評価レシピを含む完全な手法を公開しています。研究者は、NVIDIA NeMo プラットフォームを使用してモデルをファインチューニングしたり、独自のモデルを構築したりできます。

エージェント システムでの活用

Nemotron 3 Super は、マルチエージェント システム内の複雑なサブタスクを処理するように設計されています。

ソフトウェア開発エージェントは、コード ベース全体を一度にコンテキストに読み込むことができるため、ドキュメントを分割することなく、エンドツーエンドのコード生成とデバッグが可能になります。

財務分析では、数千ページに及ぶレポートをメモリに読み込むことができ、長い対話の中で再リーズニングする必要がなくなるため、効率が向上します。

Nemotron 3 Super は高精度なツール呼び出し機能を備えており、自律型エージェントが大規模な関数ライブラリを確実にナビゲートし、サイバーセキュリティにおける自律型セキュリティ オーケストレーションのようなハイリスクな環境における実行エラーを防止します。

提供開始

Nemotron 3 ファミリーの一部である NVIDIA Nemotron 3 Super は、build.nvidia.comPerplexityOpenRouterHugging Face からアクセスできます。Dell Technologies は、Hugging Face の Dell Enterprise Hub にこのモデルを導入し、Dell AI Factory へのオンプレミス展開向けに最適化して、マルチエージェント AI ワークフローの高度化に貢献します。HPE もまた、NVIDIA Nemotron を自社のエージェント ハブに導入し、企業のスケーラブルなエージェント型 AI の導入を支援します。

企業や開発者は、以下のパートナーを通じて本モデルを展開できます。

  • クラウド サービス プロバイダー:Google Cloud の Vertex AI と Oracle Cloud Infrastructure、そして近日中に Amazon Bedrock を通じて Amazon Web Services および Microsoft Azure にも提供予定
  • NVIDIA クラウド パートナー:Coreweave、CrusoeNebiusTogether AI
  • 推論サービス プロバイダーBasetenCloudFlareDeepInfraFireworks AIInference.netLightning AIModalFriendliAI
  • データ プラットフォームおよびサービス:Distyl、Dataiku、DataRobot、Deloitte、EY、Tata Consultancy Services

本モデルは NVIDIA NIM マイクロサービスとしてパッケージ化されており、オンプレミスシステムからクラウドへの展開が可能です。

NVIDIA AI ニュースコミュニティへの参加LinkedInInstagramXFacebook での NVIDIA AI のフォローを通じて、Agentic AI、NVIDIA Nemotron などの最新情報を入手してください。

自己学習ビデオ チュートリアルおよびライブストリームはこちらをご覧ください。