AI 時代の鋼: DGX SuperPOD が NVIDIA DGX A100 によって新たな高みに到達

投稿者: Tony Paikeday

鋼は長い間産業化の象徴でした。AI 時代には、新たな「建材」が最先端データ センターの礎となるでしょう。それが「NVIDIA DGX A100」です。

さまざまな組織が現在直面している最大の課題や機会の多くは、データに起因するものです。世界最先端の AI システムである DGX A100 をそれらの組織が利用すれば、記録的な速さで問題を解決すると同時に、分析、学習、推論での AI 演算能力を提供する上で、画期的な弾力性と俊敏性を実現できます。

複数の DGX システムを組み合わせることで、昨年 NVIDIA は上位 20 の世界最速コンピューターと同等のパフォーマンスを従来のコンピューターに比べてわずかなコストと消費電力で実現する「DGX SuperPOD」を発表しました。

そして、第 2 世代の SuperPOD の幕が上がります。記録的なパフォーマンスを実現し、わずか 3 週間で展開できる SuperPOD が、「世界クラスの AI スーパーコンピューティング クラスターの構築には何か月もかかる」という固定観念を覆します。

また、NVIDIA DGX A100 システムと NVIDIA Mellanox ネットワーク ファブリックで構築された SuperPOD は、世界でもっとも複雑な言語理解モデルの処理時間を数週間から 1 時間未満に短縮できるプラットフォームが実現可能であることを示しています。

インフラストラクチャのスケーリングを見直す

非常に大きなモノリシックの問題を解決するためにスーパーコンピューティング クラスターが必要な場合でも、すべての研究者および開発者の間でリソースへのアクセスを「民主化」するためにセンター オブ エクセレンスが必要な場合でも、インフラストラクチャにおける取り組みでは AI が重要な役割を果たします。

これまでは、将来的に必要になるスケーリングの規模をあらかじめ計画し、最初からその最終目標に対応できるネットワーク ファブリックを整えておくことが、大きな部分を占めていました。規模の拡張を可能にする上でこのアプローチは不可欠でしたが、どうしても初期コストがかさみました。

そこで当社は、NVIDIA Mellanox テクノロジを利用することで、もっとも複雑な問題に並列化し、可能な限り速やかに解決できるアーキテクチャでデータ センターを再定義しようとしています。DGX A100 には、200 Gbps の HDR InfiniBand に対応した新しい Mellanox ConnectX-6 VPI ネットワーク アダプターが搭載されおり、システム 1 台あたり最大 9 つのインターフェイスを使用できます。Mellanox のスイッチングを利用することで、システムの相互接続を容易にし、SuperPOD スケールを実現します。

DGX SuperPOD と DGX A100 では、AI ネットワーク ファブリックを設計して、必要な分だけ拡張できる「Pay-as-You-Grow」モデルに基づいて拡張を容易すると同時に、拡張による運用への影響を最小限に抑えます。

これにより、展開の最終目標を最初から考慮しておく必要がなくなります。しかも SuperPOD は、20 台の DGX A100 システムのスケーラブルなグループにモジュール化されています。それぞれが 2 層構成のファットツリー スイッチ ネットワーク トポロジーでサポートされており、Mellanox HDR InfiniBand を利用して、オーバーサブスクリプションが発生しない完全な双方向帯域幅を実現します。さらに、3 つ目のスイッチング層を追加することで、NVIDIA の拡張リファレンス デザインの 1 部として DragonFly+ またはファットツリー トポロジーを使用して、何千台ものシステムへとスケーリングできます。

この新しいスケーリング単位によって、組織はそれぞれ 20 台のシステムから成るモジュールを追加することで、コストの急激な増加が抑えられ、拡張に対してより直線的なアプローチをとることができます。

SuperPOD による DGX SATURNV の拡張

DGX SATURNV は、研究開発、自律走行車システムの開発、ゲーミング、ロボティクスといった、NVIDIA の最も重要な活動の原動力となっています。そして、立ち止まることなく、常にビジネス ニーズに応じて進化し続けています。新たな SuperPOD デザインにとって、SATURNV が理想的な「実験場」となっています。

DGX A100 の発表に先立ち、NVIDIA のエンジニアはすでに最新の SuperPOD を展開し、約 700 ペタフロップスの AI パフォーマンスを達成しています。この拡張には以下が含まれます。

  • 140 台の DGX A100 システム
  • 1,120 基の NVIDIA A100 GPU
  • 170 台の Mellanox Quantum 200G InfiniBand スイッチ
  • 15km の光ケーブル
  • 4 ペタバイトの高性能ストレージ

このストレージ インフラストラクチャの拡張については、DDN と提携しました。NVIDIA の DGX POD パートナーとして、DDN は NVIDIA の AI インフラストラクチャの提供に必要なパフォーマンスとスケールを実現します。SuperPOD によって、DDN のテクノロジ使用し、最先端のシステムで実行し得るもっとも困難なワークロードをサポートすることができました。

スケーリングに最適なアーキテクチャ

すべての AI プロジェクトが DGX SuperPOD を必要とするわけではありませんが、ビジネスに AI を取り入れることに意欲的な組織なら、DGX A100 のパワー、アジリティ、スケーラビリティ (つまり、DGX POD) を活用できるはずです。

将来を見据えた組織は、顧客ロイヤルティの確保やコスト削減、競合他社から距離を置くことなどに重点を置いています。AI はこれらの領域のすべてで AI ならではの利益をもたらします。

反面、AI イノベーションは変化が著しく、モデルやデータセットの規模は飛躍的に拡大しています。だからこそ、適切なアーキテクチャを採用することで、企業は現在から未来にかけて混乱することなく、それぞれの AI における最大の課題に取り組むことができるのです。

www.nvidia.com/DGXA100 では、AI インフラストラクチャ戦略を強化する方法や、DGX A100 へのアクセスを容易にする利用モデルに関する情報を提供しています。ぜひご覧ください。