広く販売されているNVIDIA DGX、 および NVIDIA テクノロジを搭載した Dell、富士通、GIGABYTE、Inspur、Lenovo、Nettrix、Supermicro のシステムが最新の MLPerf ベンチマークで最高のスコアを記録
本日発表された最新の MLPerf の結果によると、NVIDIA のパートナーが現在提供している GPU アクセラレーテッド システムを使えば、地球上の誰よりも AI モデルを速くトレーニングすることができます。
産業用ベンチマークの最終ラウンドには、7 つの企業から販売されている合計10以上のシステム (その多くが NVIDIA によって認証されたNVIDIA-Certified Systems) のテスト結果が申請されました。Dell、富士通、GIGABYTE、Inspur、Lenovo、Nettrix および Supermicro が、NVIDIA とともにテストに参加し、NVIDIA A100 Tensor コア GPU を活用し、ニューラル ネットワークのトレーニングで業界トップの結果を出しました。
ベンチマークの最終ラウンドで 8 つのワークロードすべてを処理できたのは、NVIDIA とそのパートナーだけでした。NVIDIA とパートナーのシステムはテストに提出されたシステムの3/4以上を占め、その結果は驚異的なものでした。
昨年との比較では、パフォーマンスが最大で 3.5 倍に向上しました。強大な性能を必要とする大規模なジョブでは、NVIDIA は他のどの提出よりも多い、記録的な 4,096 基の GPU からリソースを集めました。
MLPerf が重要な理由
2018 年 5 月に設立された、産業向けベンチマーク グループである MLPerf のトレーニング テストに、NVIDIA のエコシステムが参加するのは、これが 4 回目であり、その結果は過去最高のものとなりました。
MLPerf は、ユーザーが確信を持って購入できるようにするための情報を提供しています。そのベンチマークは、現在の最も一般的な AI のワークロードとシナリオに基づいたもので、コンピューター ビジョン、自然言語処理、レコメンデーション システム、強化学習などが対象となっています。また、MLPerf は、Alibaba、Arm、Baidu、Google、Intel および NVIDIA を初めとする、業界の数十のリーダー企業から支持されています。そのため、テストは透明性があり、客観的です。
MLPerfのベンチマークは、コンピューター ビジョン、自然言語処理、レコメンダー システム、強化学習など、今日最も必要とされているAIワークロードとシナリオに基づいています。また、トレーニングのベンチマークは、ユーザーが最も重視しているもの、つまり新しい AI モデルをトレーニングするまでの所要時間に焦点が当てられています。
スピード+柔軟性=生産性
最終的に、顧客のインフラへの投資に対するリターンは、顧客の生産性にかかっています。それは、このような多くの種類のAIワークロードを実行する際に、高速性と柔軟性の両方を備えているかどうかで決まります。
そのため、ユーザーは、さまざまなAIモデルを迅速に展開し、市場投入までの時間を短縮し、貴重なデータサイエンスチームの生産性を最大限に高めることができる、柔軟かつ強力なシステムを必要としているのです。
最新のMLPerfの結果では、NVIDIAのAIプラットフォームは、市販のシステムを対象としたカテゴリの8つのベンチマークすべてにおいて、最短時間でモデルをトレーニングし、パフォーマンスの記録を更新しました。
NVIDIA では、最新のTOP500のランキングで最速の商用AIコンピューターであるSeleneで大規模なテストを実施しました。Seleneは、同ランキングの他のシステムに多数採用されている、NVIDIA DGX SuperPOD アーキテクチャをベースとしています。
システムを大規模なクラスタにスケールさせることは、AIにおける最も困難な課題であり、NVIDIAの強みの一つです。
チップツーチップでの比較では、NVIDIA とNVIDIAのパートナーが、市販のシステムを対象とした8 つのベンチマークすべてで、新記録を樹立しました。
全体的な結果として、NVIDIAのフルスタックのプラットフォーム全体の改良により、パフォーマンスが2 年半で 6.5 倍に向上しています。
幅広いエコシステムが最高の価値と選択肢を提供
MLPerfの結果は、NVIDIAのAIプラットフォームをベースとした、新しい革新的なシステムのパフォーマンスを示しています。システムは、エントリーレベルのエッジサーバーから、数千ものGPUを搭載したAIスーパーコンピューターまで、多岐にわたります。
最新のベンチマークに参加しているパートナー7社は、NVIDIA A100 GPU を使ったオンライン インスタンス、サーバーおよび PCIe カードの製品を提供している、または提供予定の 20 以上のクラウドサービス プロバイダー、および OEM メーカーの中に含まれます。またこれらの製品には、40 近くの NVIDIA-Certified Systemsが含まれます。
NVIDIAのエコシステムは、分単位でレンタルできるインスタンスから、オンプレミスのサーバーやマネージド サービスまで、幅広い展開モデルの選択肢をお客様に提供しており、業界の中で、1ドルあたり最も高い価値を提供しています。
MLPerfのすべてのテストの結果を見ると、NVIDIAのパフォーマンスが時間の経過とともにが向上し続けていることがわかります。これは、継続的に改善されている、成熟したソフトウェアを備えたプラットフォームのおかげであり、ユーザーは常に向上し続けるシステムを迅速に使い始めることができます。
記録樹立の秘密
今回は、新しい A100 GPU にとっては 2 回目の MLPerf となります。GPU、システム、ネットワークおよび AI ソフトウェアなど、さまざまな要素の進歩により、スピードアップが実現されました(詳細はこちらの記事をご覧ください)。
たとえば、NVIDIA のエンジニアは、NVIDIA CUDA の命令とその依存関係のソフトウェア パッケージである CUDA Graphs を使って、フルニューラル ネットワークのモデルを起動させる方法を見つけました。これによって、カーネルと呼ばれる、多くの個々のコンポーネントのチェーンとしてAI モデルをリリースしていた、過去のテストでの CPU のボトルネックが解消されました。
さらに、ネットワーク スイッチ内に複数の通信ジョブを集約させ、ネットワーク トラフィックと CPU の待機時間を削減するソフトウェアである NVIDIA SHARP を使って大規模なテストを行いました。
CUDA Graphs と SHARP の組み合わせによって、データセンター内のジョブのトレーニングにおいて、記録的な数の GPU へのアクセスが可能になりました。これは、AI モデルが数十億のパラメータを含むくらいにまで拡大した場合の自然言語処理など、多くの分野で欠かせない能力となります。
その他にも、最新の A100 GPU のメモリが拡張したことによる利点もあり、メモリ帯域幅がおよそ 30% 拡大し、2 TB/s 以上になっています。
NVIDIAのお客様の声
幅広い分野におけるAIユーザーが、このベンチマークを参考にしています。
ナノテクノロジーから気候研究まで幅広い分野の研究を行っている、スウェーデンのチャルマース大学の広報担当者は、次のように話しています。「MLPerfベンチマークは、複数のAIプラットフォームを同一条件下で透明性のある比較を行うことで、実世界のユースケースにおける実際のパフォーマンスを示します。」
また、MLPerfのベンチマークは、世界最大級かつ最先端の工場のニーズに応えるAI製品を見極めるための手助けにもなります。例えば、チップ製造の世界的なリーダーである TSMC では、機械学習によって、光近接効果補正 (OPC) とエッチング シミュレーションを向上させています。
TSMC の OPC 部門担当ディレクターであるダンピン ペン (Danping Peng) 氏は、次のように話しています。「モデルのトレーニングと推論において機械学習の潜在能力を完全に引き出すために、当社は NVIDIA のエンジニア チームの協力を得て、Maxwell のシミュレーションおよびインバース リソグラフィ テクノロジ エンジンを GPU に移植し、速度を大幅に向上させることに成功しました。MLPerf ベンチマークは、当社の意思決定での重要な要素となっています」
ヘルスケアや製造分野での貢献
これらのベンチマークは、AI の限界を押し広げ、ヘルスケアを向上させようとしている研究者にとっても有益です。
ドイツのがん研究センターである DKFZ にて、医用画像のコンピューティング担当ヘッドを務めるクラウス マイヤーハイン (Klaus Maier-Hein) 氏は、次のように話しています。「私たちは NVIDIA と密接に連携して、ヘルスケア市場に 3DUNet のようなイノベーションをもたらしています。業界標準となっている MLPerf ベンチマークは、IT 組織と開発者に必要な性能データを提供し、個々のプロジェクトとアプリケーションを加速させるために適切なソリューションを得られるようにしています。」
研究および製造の世界的なリーダーである Samsung も、MLPerf ベンチマークを参考にして AI を導入し、製品の性能と製造での生産性を向上させています。
Samsung Electronics の広報担当者は、次のように話しています。「AI の発展を製品に結びつけるには、最高のコンピューティング プラットフォームを持つ必要があります。MLPerf ベンチマークにより、すべてのプラットフォーム ベンダーを同じ方法で評価することを可能にする、オープンで、ダイレクトな手法を得ることが可能になり、それによって当社の選別プロセスが合理化されています」
同じ結果、ツールを手に入れましょう
直近のテストで使用されたソフトウェアは MLPerf のリポジトリで入手できますので、誰でもベンチマークでの結果と同じものを再現することができます。NVIDIA では、GPU アプリケーションのためのソフトウェア ハブである NGC catalog で利用できる、ディープラーニングのフレームワークとコンテナに、このようなコードを継続的に追加しています。
これは、最新の産業向けベンチマークで実力が実証された、フルスタックの AI プラットフォームに組み込まれており、現在の実際の AI ジョブに取り組むためにさまざまなパートナーから提供されています。