DeepSeek-R1 が NVIDIA NIM で利用可能に

DeepSeek-R1 は、最先端のリーズニング機能を備えたオープンモデルです。DeepSeek-R1 のようなリーズニングモデルは、直接的な応答を提供するのではなく、1 つのクエリに対して複数の推論パスを実行し、思考の連鎖、コンセンサス、および検索方法を実行して最適な回答を生成します。

この一連の推論パスを実行すること、つまり、推論を用いて最適な回答に到達することは、テストタイムスケーリング (Test-time Scaling) と呼ばれます。DeepSeek-R1 はこのスケーリング則の絶好の例であり、エージェント型 AI 推論の要求に対してアクセラレーテッドコンピューティングが不可欠である理由を示しています。

モデルが問題を反復的に「思考」できるようになると、より多くの出力トークンが作成され、生成サイクルが長くなるため、モデルの品質は継続的に向上します。リアルタイム推論と、DeepSeek-R1 などのリーズニングモデルからの応答の高品質化をどちらも実現するには、大量のテスト時の計算が不可欠であり、より大規模な推論の展開が必要になります。

R1 は、論理推論、リーズニング、数学、コーディング、言語理解を必要とするタスクでトップクラスの精度を実現すると同時に、高い推論効率も実現します。

開発者がこれらの機能を安全に試行して独自の専用エージェントを構築できるように、6,710 億パラメータの DeepSeek-R1 モデルを現在、build.nvidia.com にて NVIDIA NIM マイクロサービスのプレビュー版として提供しています。DeepSeek-R1 NIM マイクロサービスは、単一の NVIDIA HGX H200 システムで最大 3,872 トークン/秒を生成できます。

開発者はアプリケーションプログラミングインターフェイス (API) 使ってテストや試用を行うことができ、今後、NVIDIA AI Enterprise ソフトウェアプラットフォームの一部として、ダウンロード可能な NIM マイクロサービスが提供される予定です。

DeepSeek-R1 NIM マイクロサービスは業界標準の API をサポートしているため、シンプルに展開できます。企業は自社で選んだアクセラレーテッドコンピューティングインフラ上で NIM マイクロサービスを実行することで、セキュリティとデータプライバシーを最大限に高めることができます。NVIDIA NeMo ソフトウェアと NVIDIA AI Foundry を併用することで、企業は専門的な AI エージェント向けにカスタマイズされた DeepSeek-R1 NIM マイクロサービスを作成することもできます。

DeepSeek-R1 — テストタイムスケーリングの絶好の例

DeepSeek-R1 は、大規模な Mixture of Experts (MoE) モデルです。他の多くの一般的なオープンソース LLM の 10 倍にあたる、6,710 億という驚異的なパラメータが組み込まれており、128,000 トークンという大規模な入力コンテキスト長をサポートしています。また、このモデルではレイヤーごとに非常に多くのエキスパートが使用されています。R1 の各レイヤーに 256 のエキスパートが含まれ、各トークンは評価のために 8 つの別々のエキスパートに並行して振り分けられます。

R1 のリアルタイムの回答には、推論のためにすべてのエキスパートにプロンプトトークンを振り分けるための、高帯域幅かつ低遅延の通信で接続された高い演算性能を持つ多数の GPU が必要になります。NVIDIA NIM マイクロサービスで提供されているソフトウェア最適化と共に使うことで、NVLink と NVLink Switch を用いて接続された 8 基の H200 GPU を備えた単一のサーバーで、6,710 億パラメータの DeepSeek-R1 モデル全体を最大 3,872 トークン/秒で実行できます。このスループットは、すべてのレイヤーで NVIDIA Hopper アーキテクチャの FP8 Transformer Engine を使用し、MoE のエキスパートの通信に 900 GB/秒の NVLink 帯域幅を使用することで実現します。

リアルタイム推論では、GPU の 1 秒あたりの浮動小数点演算 (FLOPS) における最大限の性能を引き出すことが不可欠です。次世代の NVIDIA Blackwell アーキテクチャは、最大 20 ペタフロップスの FP4 ピーク演算性能を備えた第 5 世代 Tensor コアと推論用に特別に最適化された 72 GPU NVLink ドメインにより、DeepSeek-R1 などのリーズニングモデルのテストタイムスケーリングに大幅な向上をもたらすでしょう。