NVIDIA とパートナーが、MLPerf において AI の性能と汎用性がトップクラスにあることを証明

NVIDIA AI は業界ベンチマークである MLPerf のすべてのテストを実行する唯一のプラットフォームであり続け、デビューしてから 2 年になる A100 GPU が今でも最も多くの最速記録を獲得

本日発表された、MLPerf ベンチマークによると、NVIDIA とそのパートナーが、総合的な AI トレーニングで最高の性能を発揮し、すべてのベンチマークにおいて最も多くのテスト結果を提出しました。全体の提出数の 90％が NVIDIA のエコシステムからの提出となっています。

NVIDIA AI プラットフォームは MLPerf Training 2.0 ラウンドの 8 つのベンチマークすべてをカバーし、その汎用性の高さが浮き彫りになりました。

これらのベンチマークは音声認識、自然言語処理、レコメンダーシステム、物体検出、画像分類など、需要の高い AI ユースケースが対象となっていますが、すべてのベンチマークを実行したアクセラレーターは他にはありませんでした。NVIDIA は、業界標準の AI ベンチマークスイートである MLPerf に、2018 年 12 月の第 1 ラウンドから一貫して参加してきました。

ベンチマークでの優れた結果と入手性

NVIDIA Ampere アーキテクチャをベースとした NVIDIA A100 Tensor コア GPU は、MLPerf Training には 4 回目の提出となり、今回もその性能の高さが証明されました。

提出企業のそれぞれのプラットフォームによる、各種ネットワークでの最速トレーニング時間

モジュラーの NVIDIA DGX SuperPOD をベースにし、NVIDIA A100 GPU、NVIDIA のソフトウェアスタックおよび NVIDIA InfiniBand ネットワークを搭載した、NVIDIA の社内用 AI スーパーコンピューターである Selene が、8 つのテストのうちの 4 つでトレーニングの最速記録を達成しました。

チップ当たりの性能を計算するために作成された上記の図は、あらゆる提出物がすべての提出元で最も一般的なスケールに正規化されています。スコアは等倍で表示されている、最速の競合提出物に合わせて正規化されています。

NVIDIA A100 もチップ当たりの優れた性能を発揮し、8 つのテストのうちの 6 つで最速であることが証明されました。

今回のラウンドでは、合計 16 のパートナーが、NVIDIA AI プラットフォームを使った結果を提出しました。これらのパートナーには、ASUS や Baidu, CASIA (中国科学院自動化研究所)、Dell Technologies、富士通、GIGABYTE、H3C、Hewlett Packard Enterprise、Inspur、KRAI、Lenovo、MosaicML、Nettrix、Supermicro などが含まれています。

NVIDIA のパートナーのほとんどは、エンタープライズでの導入に適した、優れた性能、管理性、セキュリティおよび拡張性を実現することを NVIDIA が認証したサーバーである、NVIDIA-Certified Systemsを用いて計測した結果を提出していました。

多くのモデルが実際の AI アプリケーションを駆動

AI アプリケーションは、ユーザーの口頭による要求を理解し、画像を分類し、レコメンド (推奨) を行い、音声によるメッセージとして返答したりすることが求められます。

上のようなシンプルなユースケースでも、10 種類近いモデルが必要となります。MLPerf のあらゆるベンチマークに参加することの重要性が示されています。

これらのタスクには、パイプラインとも呼ばれているシークエンスで連続的に実行される、複数の種類の AI モデルが必要となります。ユーザーは、これらのモデルのデザイン、トレーニング、展開および最適化を迅速かつ柔軟に行う必要があります。

そのため、MLPerf やあらゆるモデルを実行する汎用性と、傑出した性能の両方が、現実世界の AI を稼働させる際には欠かせません。

AI で ROI を改善

お客様にとって、自社のデータサイエンスおよびエンジニアリングのチームは最も貴重なリソースであり、これらのチームの生産性が AI インフラストラクチャの投資利益率を左右します。お客様は、AI 導入の総費用のかなりの部分を占める高価なデータサイエンスチームのコストと、AI インフラストラクチャ自体の導入にかかる比較的少額なコストを考慮する必要があります。

AI 研究者の生産性は、新しいアイデアを迅速にテストできるかどうかにかかっており、あらゆるモデルをトレーニングできる能力と、これらのモデルを最大規模でトレーニングすることで得られる速度の両方が求められます。そのため、組織は 1 ドル当たりの生産性、つまり AI 導入の本当の費用を正確に示す、この総合的な視点にもとづいて、最良の AI プラットフォームを判断しようとしています。

また、AI を活用できるかどうかは、その代替可能性、つまり単一のプラットフォームでデータ準備からトレーニング、推論に至る AI ワークフロー全体を加速できるかどうかにかかっています。

NVIDIA AI により、お客様は AI のパイプライン全体で同じインフラストラクチャを使い、データ準備、トレーニングおよび推論といった様々な用途に対応するためにインフラを再利用できるようになり、結果的に利用率を劇的に高め、極めて高い ROI を実現することができます。

さらに、研究者が AI の新しいブレイクスルーを発見した場合には、最新のモデルイノベーションへの対応が、AI インフラストラクチャの耐用年数を最大化させるためのカギとなります。

NVIDIA AI は、モデルを問わず性能を発揮し、あらゆる規模に拡張でき、データ準備からトレーニング、推論に至るあらゆる過程においてエンドツーエンドで AI を加速するため、1 ドル当たりで最高の生産性をもたらします。

本日の結果は、MLPerf のこれまでのトレーニング、推論および HPC のラウンドで示されてきた、AI における NVIDIA の広範かつ深い専門性を改めて示すものとなっています。

3 年半で性能が 23 倍に

A100 を用いて MLPerf の最初のテスト結果の提出を行ってからの 2 年間で、NVIDIA のプラットフォームは性能が 6 倍以上に向上しています。ソフトウェアスタックを継続的に最適化したことで、このような性能アップが実現しました。

MLPerf が登場して以降、NVIDIA AI プラットフォームは、3 年半でベンチマークでの性能を 23 倍に高めました。これは、GPU、ソフトウェア、そして大規模な改良に至る、フルスタックのイノベーションの成果と言えます。現在投資している AI プラットフォームが 3 年から 5 年にわたって利用でき、最新のテクノロジに対応できるように進化を続けるとお客様に安心していただけるのは、このようなイノベーションに対する継続的な取り組みがあるからです。

また、3 月に発表されたNVIDIA Hopper アーキテクチャは、今後の MLPerf ラウンドにおいて性能上のさらなる飛躍が期待できます。

3 年半で性能が 23 倍にここに至るまでの道のり

ソフトウェアのイノベーションが NVIDIA Ampere アーキテクチャの性能を向上させ続けています。

たとえば、多数のアクセラレーター間で実行されるジョブ起動時のオーバーヘッドを最小化させることが可能なソフトウェア、CUDA Graphs は、NVIDIA の提出結果で広範囲にわたって使用されています。cuDNN のようなライブラリのカーネルを最適化し、DALI を前処理することにより、さらなるスピードアップが可能になりました。NVIDIA はハードウェア、ソフトウェアおよびネットワーキングのすべてでもフルスタックの改良を行っており、そのなかには、いくつかの AI 機能をネットワークにオフロードし、とりわけ大規模な展開で性能をさらに高めることができる、NVIDIA Magnum IO と SHARP も含まれています。

NVIDIA が使用しているソフトウェアはすべて MLPerf のリポジトリで入手できるので、誰もがワールドクラスの結果を享受できるようになります。NVIDIA は、GPU アプリケーションのソフトウェアハブである NGC で利用可能なコンテナの内容を絶えず最適化しており、NVIDIA AI Enterprise を通じて、NVIDIA が完全にサポートする最適化されたソフトウェアを提供しています。

A100 の登場から 2 年になりましたが、NVIDIA AI プラットフォームは MLPerf 2.0 で最高の性能を発揮し続けており、8 つのベンチマークのそれぞれでテスト結果が提出された、唯一のプラットフォームとなっています。次世代の Hopper アーキテクチャは、今後の MLPerf ラウンドでの大きな飛躍を期待させます。

NVIDIA のプラットフォームは、あらゆる規模の、あらゆるモデルとフレームワークで広く利用することが可能であり、AI ワークロードのあらゆる部分を処理できる汎用性を有しています。あらゆるクラウドで、ならびにあらゆる大手サーバーメーカーを通じて入手いただけます。