詳細な調査を行う AI アシスタントから、ナビゲーションの判断を瞬時に下す自動運転車まで、あらゆる業界で AI の導入が爆発的に進んでいます。
こうしたすべての処理の背後にあるのが推論です。推論とは、AI モデルがトレーニングの後、リアルタイムで入力を処理し、出力を生成する段階を指します。
多段階の論理推論や複雑な意思決定が可能な現在の最先端の AI リーズニング モデルは、従来のモデルと比較して 1 回のやり取りで生成するトークン数がはるかに多く、それによってトークンの使用量が急増し、大規模にインテリジェンスを生成できるインフラの必要性が高まっています。
こうしたニーズの高まりに応える方法の 1 つが、AI ファクトリーです。
ただし、このように大規模な推論を実行するには、単に計算リソースを追加投入すればよいというものではありません。
AI を最大限に効率よく展開するには、Think SMART フレームワークに基づいて推論を評価する必要があります。SMART が表す意味を次に示します。
- Scale and complexity (規模と複雑さ)
- Multidimensional performance (多次元パフォーマンス)
- Architecture and software (アーキテクチャとソフトウェア)
- Return on investment driven by performance (パフォーマンスによる投資収益率の向上)
- Technology ecosystem and install base (テクノロジ エコシステムと導入基盤)
規模と複雑さ
コンパクトなアプリケーションから大規模なマルチエキスパート システムへとモデルが進化する中、推論もまた、多様化するワークロードに対応していくことが求められています。単発の質問に素早く回答する処理から、数百万ものトークンを伴う多段階のリーズニングまで、幅広い処理に対応しなければなりません。
AI モデルの規模と複雑さの増大は、推論に大きな影響を及ぼします。リソース消費量、レイテンシとスループット、エネルギーとコスト、ユース ケースの多様性がその例です。
こうした複雑さに対応するために、AI サービス プロバイダーと企業がインフラをスケールアップしており、CoreWeave、Dell Technologies、Google Cloud、Nebius などのパートナーの新たな AI ファクトリーが稼働を開始しています。
多次元パフォーマンス
複雑な AI の展開を拡張するには、AI ファクトリーが、精度、レイテンシ、コストのバランスを取りながら、幅広いユース ケースで柔軟にトークンを処理できる必要があります。
リアルタイムの音声からテキストへの翻訳など、一部のワークロードでは、超低レイテンシとユーザーあたりの大量のトークン処理が求められ、最大限の応答性を確保するために計算リソースへの負荷が大きくなります。一方、数十件の複雑な質問に対する回答を同時に生成するようなワークロードでは、遅延は問題にならず、純粋なスループットが重視されます。
しかし、最も一般的なリアルタイム シナリオはそのどちらでもありません。ユーザーの満足度を維持するための迅速な応答と、数百万人規模のユーザーに同時対応するための高いスループットの両立が求められ、さらに、トークンあたりのコストを最小限に抑える必要があります。
たとえば、NVIDIA 推論プラットフォームは、レイテンシとスループットを両立できるように構築されており、gpt-oss、DeepSeek-R1、Llama 3.1 などのモデルで推論ベンチマークを実行できます。
最適な多次元パフォーマンスを実現するために評価すべき項目
- スループット:システムが 1 秒あたりにトークンをどれだけ処理できるか。スループットが高いほど、ワークロードの拡張と収益の向上に有利です。
- レイテンシ:システムが個々のプロンプトにどれだけ速く応答できるか。レイテンシが小さいほど、ユーザー体験が向上するため、対話型アプリケーションでは特に重要です。
- スケーラビリティ:複雑な再構築を行ったり、リソースを無駄にしたりすることなく、需要の増加に合わせて、1 基の GPU から数千基へと、システム構成を迅速に調整できるか。
- コスト効率:1 ドルあたりのパフォーマンスが高いか、またその水準をシステム需要の増加に応じて維持できるか。
アーキテクチャとソフトウェア
AI 推論のパフォーマンスは、最初から綿密に設計する必要があります。これは、ハードウェアとソフトウェアが連携して動作することで実現します。GPU、ネットワーク、コードを最適化して、ボトルネックを回避し、各サイクルを最大限に活かすことが求められます。
強力なアーキテクチャも、スマートなオーケストレーションがなければ、潜在能力を発揮できません。優れたソフトウェアも、高速で低レイテンシのハードウェアがなければ、パフォーマンスが低下します。重要なのは、素早く、効率的かつ柔軟に、プロンプトを有用な回答へ変換できるシステムを設計することです。
NVIDIA のインフラを使用すれば、企業は最適なパフォーマンスを実現するシステムを構築できます。
AI ファクトリー規模の推論のために最適化されたアーキテクチャ
NVIDIA Blackwell プラットフォームは、推論における AI ファクトリーの生産性を 50 倍向上させます。つまり、最も複雑なモデルを実行する場合でも、企業はスループットと対話応答性を最適化できます。
NVIDIA GB200 NVL72 ラックスケール システムは、NVIDIA Grace CPU 36 基と Blackwell GPU 72 基を NVIDIA NVLink インターコネクトで接続し、負荷の高い AI リーズニング ワークロードにおいて、収益可能性を 40 倍、スループットを 30 倍、エネルギー効率を 25 倍、水効率を 300 倍向上させます。
さらに、低精度フォーマットの NVFP4 は、NVIDIA Blackwell のパフォーマンスを最大限に引き出し、精度を損なうことなく、電力、メモリ、帯域幅の必要量を大幅に削減します。そのため、ユーザーはワットあたりのクエリ数を増やし、トークンあたりのコストを削減できます。
Blackwell で高速化されたフルスタック推論プラットフォーム
AI ファクトリー規模の推論を実現するには、単に高速化されたアーキテクチャだけでは不十分です。複数層のソリューションとツールが連携して機能する、フルスタックのプラットフォームが必要です。
最新の AI の展開では、1 基から数千基までの GPU を動的にオートスケーリングできる必要があります。NVIDIA Dynamo プラットフォームは、分散推論を制御し、GPU を動的に割り当ててデータ フローを最適化することで、コスト増加なしでパフォーマンスを最大 4 倍向上できます。さらに、新しいクラウド統合によってスケーラビリティと展開しやすさも向上しています。
大規模な混合エキスパート モデルの高速化など、GPU あたりの最適なパフォーマンスを重視する推論ワークロードでは、NVIDIA TensorRT-LLM などのフレームワークが、開発者による画期的なパフォーマンスの実現を支援します。
PyTorch を中心とした新しいワークフローにより、TensorRT-LLM は手動でのエンジン管理を不要にし、AI の展開を効率化します。これらのソリューションは単体でも強力ですが、連携して機能するように構築されています。たとえば、Baseten のようなミッション クリティカルな推論プロバイダーは、Dynamo と TensorRT-LLM を併用することで、gpt-oss のような最先端モデルでも最高水準のモデル パフォーマンスを即座に実現できます。
モデル面では、NVIDIA Nemotron などのファミリーは、透明性を高めるためにオープンなトレーニング データで構築されています。その一方で、計算コストを増やすことなく、高度なリーズニング タスクを高精度で処理するのに十分な速さでトークンを生成できます。また、NVIDIA NIM を利用すると、すぐに実行できるマイクロサービスとしてこれらのモデルをパッケージ化でき、複数の環境への展開とスケールを容易にしながら、総所有コストを最小限に抑えることができます。
これらの層 (動的なオーケストレーション、最適化された実行、適切に設計されたモデル、簡素化された展開) が一体となり、クラウド プロバイダーや企業における推論実現の中核を形成します。
パフォーマンスによる投資収益率の向上
AI の導入が進むにつれ、ユーザー クエリあたりの投資収益率を最大化することへの組織の関心が高まっています。
パフォーマンスは、投資収益率を左右する最大の要因です。NVIDIA Hopper アーキテクチャから Blackwell アーキテクチャへの移行により、パフォーマンスが 4 倍向上し、同等の電力予算で最大 10 倍の利益成長が実現します。
電力制限のあるデータセンターや AI ファクトリーでは、ワットあたりのトークン生成量を増やすことが、そのままラックあたりの収益向上につながります。トークンのスループットを効率的に管理し、レイテンシ、精度、ユーザー負荷のバランスを取ることが、コストを抑える上で重要です。
業界でコスト改善が急速に進んでおり、スタック全体の最適化によって 100 万トークンあたりのコストを 80% 削減できるケースも見られます。こうした効果は、ハイパースケール データセンターでもローカルの AI PC でも、NVIDIA の推論エコシステムに含まれる gpt-oss や他のオープンソース モデルを実行することで同様に得られます。
テクノロジ エコシステムと導入基盤
モデルの進化に伴い、コンテキスト ウィンドウの拡張、トークン数の増加、ランタイム動作の高度化が進み、推論のパフォーマンスも向上しています。
この勢いを支える原動力となっているのがオープン モデルです。これによって、現在の AI 推論ワークロードの 70% 以上が高速化されています。スタートアップ企業も大企業も、オープン モデルを利用して、あらゆる分野のエージェント、コパイロット、アプリケーションをカスタム構築できます。
オープンソース コミュニティは、生成 AI のエコシステムの中で、コラボレーションの促進、イノベーションの加速、アクセスの民主化といった重要な役割を果たしています。NVIDIA は、GitHub 上に 1,000 件以上のオープンソース プロジェクトを公開しているほか、Hugging Face 上に 450 のモデルと 80 以上のデータセットを公開しています。これらを利用すれば、JAX、PyTorch、vLLM、TensorRT-LLM といった人気のあるフレームワークを NVIDIA の推論プラットフォームと統合できます。その結果、あらゆる構成の推論性能と柔軟性を最大化することが可能になります。
だからこそ、NVIDIA は、llm-d などのオープンソース プロジェクトへの貢献や、Llama、Google Gemma、NVIDIA Nemotron、DeepSeek、gpt-oss といったオープン モデルに関する業界リーダーとの協働を続け、AI アプリケーションをアイデア段階から実運用へと、かつてないスピードで移行させています。
最適化された推論の要点
NVIDIA 推論プラットフォームに、最新の AI ワークロードを展開するための Think SMART フレームワークを組み合わせれば、企業は急速に進化するモデルの需要にインフラを対応させ、生成されるトークン一つひとつから最大限の価値を引き出すことができます。
推論がどのように AI ファクトリーの収益創出力を高めるのかについては、こちらをご覧ください。
NVIDIA Think SMART ニュースレターにご登録いただくと、毎月の最新情報をご覧になれます。