NVIDIA、8 つの AI 性能の新記録を樹立

8 時間から 80 秒間に。NVIDIA、AI トレーニング時間の新記録を達成

速くなければ、1 番にはなれません。

世界の大手企業では、研究者とデータサイエンティストのチームが、より複雑な AI モデルを作っており、それらにはトレーニングが必要で、そのトレーニングには速さが求められます。

AI のリーダーとなるには、AI インフラストラクチャのリーダーになる必要があるというのには、理由があるからです。MLPerf が本日公表した AI トレーニングの結果が重要であるというのも同じ理由からです。

MLPerf のすべての6つのカテゴリーで、NVIDIA はワールドクラスの性能と用途の広さを証明しました。NVIDIA の AI プラットフォームは、大規模な実装での全体的な性能について 3 つ、アクセラレーター当たりの 5 つを含む、8 つの新記録を樹立しました。

表 1: NVIDIA による MLPerf AI 記録
記録タイプ	ベンチマーク	記録
最大スケール (分単位でのトレーニング時間)	物体検知 (重み大) – Mask R-CNN	18.47 分
	翻訳 (再帰) – GNMT	1.8 分
	強化学習 – MiniGo	13.57 分
アクセラレーター当たり (時間単位でのトレーニング時間)	物体検知 (重み大) – Mask R-CNN	25.39 時間
	物体検知 (重み小) – SSD	3.04 時間
	翻訳 (再帰) – GNMT	2.63 時間
	翻訳 (非再帰) – Transformer	2.61 時間
	強化学習 – MiniGo	3.65 時間

アクセラレーター当たりの比較は、単一の NVIDIA DGX-2H (16 V100 GPUs) 上の MLPerf 0.6 の性能を、他で提出されたMiniGo を除く同じ規模の NVIDIA DGX-1 (8 V100 GPUs) との比較を使用し、結果を抽出している | MLPerf ID (最大スケール): Mask R-CNN: 0.6-23、GNMT: 0.6-26、MiniGo: 0.6-11 | MLPerf ID (アクセラレーター当たり): Mask R-CNN、SSD、GNMT、Transformer: 以上全て 0.6-20 を使用、MiniGo: 0.6-10

上記の数字は、MLPerf の AI ベンチマークスイートの作成に協力した Google、Intel、Baidu、NVIDIA および数十のその他トップクラスのテクノロジ企業および大学の支援で得られたもので、信頼できるイノベーションであることを示しています。

簡単に言えば、NVIDIA の AI プラットフォームが、かつて一日分の労働時間の全てが必要だった、モデルのトレーニング時間を 2 分未満に短縮したのです。

企業は、このような生産性の大幅向上が重要であることを知っています。現在、スーパーコンピュータは AI に欠かせない装置となっており、AI のリーダーとなるためには強力な AI コンピューティングインフラストラクチャが必要です。

NVIDIA の最新の MLPerf 結果は、これらの要素を全て組み合わせたようなものであり、NVIDIA V100 Tensor コア GPU をスーパーコンピュータクラスのインフラストラクチャに織り込むことで得られる利益を示しています。

2017 年の春の時点では、NVIDIA DGX-1 システムに V100 GPU を搭載し、画像認識モデルの ResNet-50 をトレーニングするには、一日の労働時間全て、つまり 8 時間が必要でした。

現在、同じ V100 GPU を使い、Mellanox InfiniBand にて相互接続された NVIDIA DGX SuperPOD にて、NVIDIA が最適化した最新の AI ソフトウェアで AI を分散トレーニングすると、わずか 80 秒で完了します。

まさに、コーヒーを 1 杯飲むよりも短い時間なのです。

AI に欠かせない装置：ワークロードをより速く処理する DGX SuperPOD

今日の MLPerf の結果をより詳しく見れば、NVIDIA DGX SuperPOD が、MLPerf の 6 つのカテゴリーのそれぞれを 20 分未満で完了できた唯一の AI プラットフォームであることがわかります。

さらに詳しく見てみると、NVIDIA の AI プラットフォームは、重み付けを大きくした物体検知および強化学習におけるトレーニングの合計時間を測定したところ、最も困難な AI の問題でも傑出した性能を発揮したことが明らかになりました。

Mask R-CNN ディープニューラルネットワークを使った重み付けの大きい物体検知により、ユーザーは最先端のインスタンスセグメンテーションが利用できるようになります。インスタンスセグメンテーションによって、たとえば、カメラやセンサー、ライダー、超音波画像などの複数のデータソースとの組み合わせで、特定の物体を正確に識別および位置認識できるようになります。

このタイプの AI ワークロードにより、自律走行車両のトレーニングができるようになり、歩行者や他の物体の正確な位置を自動運転車に知らせることができます。現実生活での用途は他にもあり、たとえば、医師が医用スキャンで腫瘍の発見および識別ができるようになります。命に関わることです。

NVIDIA の重み付けの大きい物体検知の完了通知時間はわずか 19 分未満で、次点の完了通知時間のほぼ半分となっています。

強化学習も難しいカテゴリーです。この AI 手法は、生産を合理化するために工場で働いているロボットのトレーニングに使われています。この手法は、交通渋滞を軽減するための、都市内の交通信号制御にも使用されています。NVIDIA DGX SuperPOD を使用して、NVIDIA は MiniGo AI 強化学習モデルを新記録の 13.57 分でトレーニングしました。

コーヒーを飲む時間もない速さ: 即座に利用できる AI インフラストラクチャが世界最高レベルの性能を発揮

もっとも、ベンチマークを上回るよりも重要なのは、イノベーションのスピードアップです。そのため、DGX SuperPOD では、パワフルであるだけでなく、簡単に設定できるようになっています。

NVIDIA のNGC コンテナレジストリより自由に入手できる、最適化された CUDA-X AI ソフトウェアをフル活用した DGX SuperPOD により、世界最高レベルの AI 性能をすぐに利用することができます。

DGX SuperPOD により、あらゆる AI フレームワークと開発環境に対応するために NVIDIA と連携している、130 万人以上の CUDA 開発者で構成されたエコシステムとつながることができます。

NVIDIA は、数百万行のコードの最適化を可能にし、クラウドでも、データセンターでも、エッジでも、NVIDIA GPU のあるあらゆる場所で、お客様が自身の AI プロジェクトに生命を吹き込めるようにしています。

今日は速く、明日はもっと速くなる AI インフラストラクチャ

いまでも十分に速いのですが、このプラットフォームはつねに速度を上げています。NVIDIA は毎月、CUDA-X AI の新たな最適化と性能改良を行っており、NGC コンテナレジストリで包括的なソフトウェアスタックを自由にダウンロードできるようにしています。そのなかには、コンテナ化されたフレームワークや事前にトレーニングを受けたモデル、スクリプトが含まれています。

CUDA-X AI ソフトウェアでのこのようなイノベーションにより、NVIDIA DGX-2H サーバーは、わずか 7 か月前に当社が投稿した、MLPerf 0.6 での完了通知速度より、スループットが最大で 80% 向上しました。