NVIDIA Blackwell Ultra が MLPerf Inference ベンチマークで新記録を樹立

NVIDIA GB300 NVL72 ラックスケール システムが新しいリーズ二ング推論ベンチマークで最高のスループットを実現、NVIDIA プラットフォームは GPU あたりの推論パフォーマンス記録をすべて保持
投稿者: Dave Salvator

推論パフォーマンスは非常に重要で、AI ファクトリーの経済学に直接的に影響を与えます。AI ファクトリー インフラのスループットが高ければ高いほど、より多くのトークンを高速に生成できるため、収益の増加、総所有コスト (TCO) の削減、そしてシステム全体の生産性向上につながります。

NVIDIA Blackwell Ultra アーキテクチャを搭載している NVIDIA GB300 NVL72 ラックスケール システムは、NVIDIA GTC で発表されてから半年も経たないうちに MLPerf Inference v5.1 の新しいリーズ二ング推論ベンチマークで記録を樹立し、NVIDIA Blackwell ベースの GB200 NVL72 システムと比較して DeepSeek-R1 推論スループットを最大 45% 向上させています。

Blackwell アーキテクチャの成功をもとに開発された Blackwell Ultra は、Blackwell と比較して 1.5 倍の NVFP4 AI コンピューティングと 2 倍のアテンション層アクセラレーション、そして GPU あたり最大 288GB の HBM3e メモリを特長としています。

また、NVIDIA プラットフォームは MLPerf Inference v5.1 スイートに追加された新しいデータセンター ベンチマーク (DeepSeek-R1、Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper など) すべてにおいてパフォーマンスの記録を塗り替え、各 MLPerf データセンター ベンチマークでの GPU あたりの記録も更新し続けています。

フルスタックのテクノロジによる勝利

フルスタックの協調設計は、これらの最新のベンチマーク結果を実現する上で重要な役割を果たしています。Blackwell と Blackwell Ultra には、NVFP4 データ フォーマット向けのハードウェア アクセラレーションが組み込まれています。NVFP4 は NVIDIA が設計した 4 ビット浮動小数点フォーマットで、他の FP4 フォーマットよりも精度が優れているだけでなく、より高精度なフォーマットに匹敵する精度も実現しています。

NVIDIA TensorRT Model Optimizer ソフトウェアは、DeepSeek-R1、Llama 3.1 405B、Llama 2 70B、および Llama 3.1 8B を NVFP4 に量子化しました。オープンソースの NVIDIA TensorRT-LLM ライブラリとの連携も相まって、Blackwell と Blackwell Ultra はこの最適化によってさらに高パフォーマンスを実現し、結果の提出に際し求められる厳しい精度要件を満たしました。

大規模言語モデルの推論は、1) 最初の出力トークンを作成するためにユーザー入力を処理するコンテキスト、2) 後続のすべての出力トークンを作成するための生成、という実行特性が異なる 2 つのワークロードで構成されています。

分離サービングと呼ばれる手法により、コンテキスト タスクと生成タスクを分割し、各部分を別々に最適化することで、全体的なスループットが最大限に高まります。この手法は Llama 3.1 405B Interactive ベンチマークで記録的なパフォーマンスを達成する鍵となり、従来のサービングでベンチマークを実行した NVIDIA DGX B200 サーバーの各 Blackwell GPU と比較して、GB200 NVL72 システムのパフォーマンスが GPU あたり約 50% 向上しました。

また、NVIDIA が NVIDIA Dynamo 推論フレームワークを使用して提出を行ったのはこのラウンドが初めてです。

クラウド サービス プロバイダーやサーバー メーカーなどの NVIDIA パートナーは、NVIDIA Blackwell プラットフォームや Hopper プラットフォームを使用して目覚ましい結果を提出しました。これらのパートナーには、Azure、Broadcom、Cisco、CoreWeave、Dell Technologies、Giga Computing、HPE、Lambda、Lenovo、Nebius、Oracle、Quanta Cloud Technology、Supermicro、フロリダ大学などが含まれます。

NVIDIA AI プラットフォームにおける市場をリードする推論パフォーマンスは、主要なクラウド プロバイダーやサーバー メーカーから提供されています。高度な AI アプリケーションを展開する組織にとっては、TCO の削減と投資収益率の向上につながります。

前述のフルスタック テクノロジの詳細については、MLPerf Inference v5.1 について解説した NVIDIA 技術ブログをご覧ください。また、NVIDIA DGX Cloud の Performance Explorer をご覧いただくと、NVIDIA のパフォーマンスや TCO のモデルが確認でき、カスタム レポートを生成できます。