新たな高みへのスケーリング: MLPerf Training の NVIDIA の結果が、かつてない優れたパフォーマンスを示す

NVIDIA は最新の MLPerf Training ベンチマークにおいて、比類ないパフォーマンスとほぼ 100% のスケーリング効率を達成

フルスタックの NVIDIA アクセラレーテッドコンピューティングプラットフォームは、最新の MLPerf Training v4.0 ベンチマークにおいて、再び卓越した性能を発揮しました。

NVIDIA は、GPT-3 175B に基づく大規模言語モデル (LLM) ベンチマークの性能を、昨年NVIDIA が提出した記録的なものと比較して 3 倍以上向上させました。NVIDIA Quantum-2 InfiniBand ネットワーキングで接続された 11,616 基の NVIDIA H100 Tensor コア GPUを搭載した AI スーパーコンピューターを使用して、NVIDIA は、1 年前に提出した 3,584基の H100 GPU の 3 倍以上という大規模化と、広範なフルスタックエンジニアリングによって、この驚くべき偉業を達成しました。

NVIDIA AI プラットフォームのスケーラビリティのおかげで、Eos は GPT-3 175B のような巨大な AI モデルをさらに高速にトレーニングできるようになり、この優れた AI 性能は大きなビジネスチャンスにつながります。例えば、最近の決算発表の説明会では、LLM サービスプロバイダーが、NVIDIA HGX H200 サーバー上で Llama 3 70B モデルを稼働させることで、わずか 4 年間で投資した 1 ドルを 7 ドルに変えることができることを説明しました。このリターンは、LLM サービスプロバイダーが Llama 3 70B を $0.60/M トークンで提供し、HGX H200 サーバーのスループットが毎秒 24,000 トークンの場合を想定しています。

NVIDIA H200 GPU が生成 AI と HPC を強化

NVIDIA H200 Tensor GPU は、Hopper アーキテクチャの強みを基盤としており、H100 GPU と比較して 40% 以上のメモリ帯域幅を持つ 141GB の HBM3 メモリを搭載しています。AI トレーニングで可能なことの限界を押し広げる NVIDIA H200 Tensor コア GPU は、MLPerf Training のデビューにおいて、H100 のパフォーマンスを最大 47% 向上させました。

NVIDIA ソフトウェアが比類なき性能の向上を実現

さらに、512 基の H100 GPU 搭載した構成を使用したNVIDIAの成果は、NVIDIA ソフトウェアスタックへの多数の最適化により、わずか 1 年前と比較して最大 27% 高速化しました。この改善は、継続的なソフトウェアの強化が、同じハードウェアであっても、いかにパフォーマンスを大幅に向上させることができるかを示しています。

この作業はまた、ほぼ完璧なスケーリングを実現しました。昨年の 3,584 基の H100 GPU から今回の提出で 11,616 基とGPU の数が 3.2 倍増加したため、提供されたパフォーマンスも向上しました。

これらの最適化の詳細については、NVIDIA 技術ブログご覧ください。

LLM ファインチューニングに秀でる

企業が事前トレーニングされた大規模言語モデルをカスタマイズしようとする中で、LLM のチューニングは業界の重要な作業となっています。MLPerf は今回、Meta Llama 2 70B に適用された一般的な LoRA (Low-Rank Adaptation) テクノロジに基づく、新しい LLM チューニングベンチマークを導入しました。

NVIDIA プラットフォームは、このタスクで優れた性能を発揮し、8 基から 1,024 基のGPU までスケーリングし、NVIDIA が提出した最大規模の GPU は、記録的な 1 分半でベンチマークを完了しました。

Stable Diffusion と GNN トレーニングの高速化

NVIDIA はまた、Stable Diffusion v2 のトレーニング性能を、前回の提出と同じシステム規模で最大 80% 加速させました。これらの進歩は、NVIDIA ソフトウェアスタックに対する多数の機能強化を反映したものであり、ソフトウェアとハードウェアの改良が、いかにトップクラスの性能を実現するために効果的かを示しています。

R-GAT に基づく新しいグラフニューラルネットワーク (GNN) テストでは、H100 GPU を搭載した NVIDIA プラットフォームが、小規模でも大規模でも優れていました。H200 は、シングルノードの GNN トレーニングにおいて、H100 と比較して 47% の向上を実現しました。これは、NVIDIA GPU の強力な性能と高効率を示すものであり、幅広い AI アプリケーションに最適です。

幅広いエコシステムのサポート

NVIDIA AI エコシステムの幅広さを反映して、ASUS、Dell Technologies、富士通、GIGABYTE、Hewlett Packard Enterprise、Lenovo、Oracle、Quanta Cloud Technology、Supermicro、Sustainable Metal Cloud を含む 10 社の NVIDIA パートナーが結果を提出しました。このような幅広い参加と、各社の素晴らしいベンチマーク結果は、業界全体で NVIDIA の AI プラットフォームが広く採用され、信頼されていることを裏付けています。

AI コンピューティングにベンチマークのベストプラクティスをもたらす MLCommons の継続的な活動は極めて重要です。AI と HPC プラットフォームの第三者による評価を受けた比較を可能にし、AI コンピューティングを特徴づける急速な変化に対応することで、MLCommons は重要な購買決定の指針となる重要なデータをあらゆる企業に提供しています。

また、NVIDIA Blackwell プラットフォームにより、トレーニングと推論の両方において、1 兆パラメータの生成 AI モデルにおける次世代レベルの AI 性能が間もなく実現します。