NVIDIA、自動運転車開発向けのスーパーコンピュータを構築

投稿者: Charlie Boyle

世界で 22 番目に速いスーパーコンピュータ、DGX SuperPOD を公開

AI でリーダーシップをとるためには最高のコンピューティング性能が不可欠であることを証明するために、NVIDIA は、世界で 22 番目に速いスーパーコンピュータ、DGX SuperPOD を発表しました。DGX SuperPOD は、企業の自律走行車のデプロイ計画の多様な要件を満たす、AI のためのインフラストラクチャとなります。

このシステムは、96 台の NVIDIA DGX-2H スーパーコンピュータと Mellanox のインターコネクト テクノロジによって、わずか 3 週間で作り上げられました。9.4 PFLOPS の演算性能を持つ DGX SuperPOD は、安全な自動運転車に必要な、膨大な数のディープ ニューラル ネットワークのトレーニングを行える性能を備えています。

お客様は、NVIDIA の DGX SuperPOD の設計に基づいたこのシステムの全部または一部をDGX-2 パートナーから購入することができます。

自動運転車の AI トレーニングには、膨大な数値計算という根本的な課題があります。

1 台のデータ収集車が生成するデータ量は、1 時間あたり 1 TB (テラバイト) にも及びます。データ収集車の車隊全体が走行する年数にそのデータ量を掛けると、データはすぐに PB (ペタバイト) の単位に到達します。そのデータは、路上でのルールに基づいてアルゴリズムのトレーニングを行うために、ならびに車内で作動しているディープ ニューラル ネットワークの潜在的な問題点を見つけ、継続的なループで再トレーニングを行うために使用されます。

NVIDIA の AI インフラストラクチャ担当バイスプレジデントのクレメント ファラベット (Clement Farabet) は、次のように述べています。「AI でリーダーシップをとるには、演算インフラストラクチャでのリーダーシップが必要です。AI の課題でもっとも困難なものの 1 つは自律走行車のトレーニングで、徹底的な正確さを追求するためには、ニューラル ネットワークを数万回も再トレーニングする必要があります。それには、DGX SuperPOD の圧倒的な処理能力が欠かせないのです」

1,536 の NVIDIA V100 Tensor コア GPU が NVIDIA の NVSwitch および Mellanox のネットワーク ファブリックに相互接続されている DGX SuperPOD は、スーパーコンピュータらしい比類なき性能でデータを処理します。

このシステムは休みなく処理を行い、自律走行車用ソフトウェアの最適化ならびにニューラル ネットワークの再トレーニングをこれまでよりはるかに早いターンアラウンド タイムで行います。

たとえば、DGX SuperPOD のハードウェアおよびソフトウェアのプラットフォームは、ResNet-50 のトレーニングを 2 分未満で行います。2015 年にこの AI モデルが登場したとき、当時最先端のシステムであった、単体の NVIDIA K80 GPUを使用した場合のトレーニングの所要時間は 25 日でした。DGX SuperPOD により、そのトレーニングが 18,000 倍早くなるのです。

同様のレベルの性能を持つ、他の TOP500 システムが数千のサーバーにて構築されているのに対して、DGX SuperPOD の専有面積はわずかであり、同じランクのものよりおよそ 400 倍小さくなっています。

さらに、NVIDIA DGX システムは、それぞれに膨大な演算を必要とするBMW や Continental、Ford、Zenuity といった自動車会社から、Facebook や Microsoft、富士フイルムといった巨大企業、理化学研究所やアメリカ合衆国エネルギー省傘下の国立研究所といった学界のリーダー組織に至るところですでに導入されています。

DGX SuperPOD は、スーパーコンピュータらしい比類なき性能でデータを処理します。

独自の SuperPOD を構築するためのレファレンスアーキテクチャ

DGX SuperPOD は、ディープラーニング モデルを超高速で実行できるだけではありません。
モジュラー形式の、エンタープライズグレードの設計により、デプロイも驚くほど迅速にできるのです。

この規模のシステムでは、デプロイまで 6 か月から 9 か月かかることもよくありますが、DGX SuperPOD の場合は、エンジニアが所定の、検証済みのアプローチをとることで、わずか 3 週間でデプロイされました。

DGX SuperPOD のようなスーパーコンピュータの構築により、NVIDIA では、大規模な AI マシンのためにシステムを設計する方法を学ぶこともできました。これはスーパーコンピュータのテクノロジに重要な発展をもたらし、学界や輸送企業、ならびに自社のイニシアチブを加速させるハイ パフォーマンス コンピューティングを必要とする、その他の業界に膨大な便益を提供します。

AI 対応のデータセンターを持っていないものの、NVIDIA SuperPOD アーキテクチャを使ってニーズに対処したいと考える組織に対しては、NVIDIA は、DGX-Ready データセンター プログラムを通じての、簡略で、迅速なデプロイメントを提案しています。

企業のデータセンター コロケーション サービス プロバイダーの場合は、DGX システムを活用して、エンタープライズの顧客がワールドクラスの AI データセンターを構築およびデプロイするのを支援することができます。

イノベーションを簡単に

世界最速スーパーコンピュータの TOP500 リストに入っている、NVIDIA が自社のみで開発したシステムは DGX SuperPOD だけではありません。

NVIDIA の SATURNV システムがその最初となるもので、公開された 2016 年に Green500 リストのトップになり、世界で最もエネルギー効率に優れたシステムだと認知され、TOP500 では 28 位となりました。

それ以降、SATURNV Volta (NVIDIA DGX-1 システムを実装) および DGX-2H POD も、圧倒的な性能レベルと効率的な電力消費で高い評価を受けています。

NVIDIA の GPU を活用したデバイスは、最新の Green500 の上位 25 のスーパーコンピュータのうちの 22 のスーパーコンピュータに搭載されています。