クラウドネイティブの AI スーパーコンピューターが TOP500 に進出

投稿者: Chintan Patel

Microsoft Azure やケンブリッジ大学のシステムをはじめとする、クラウドベースの AI スーパーコンピューターが、世界で最もパワフルなコンピューターの最新リストに続々とランクイン

ISC High Performance イベントで公開された TOP500 リストによれば、新登場のシステムの 70%、ならびにトップ 10 システムのうち 8 システムを含む 342 のシステムで、NVIDIA のテクノロジが採用されています。

世界で最もパワフルなシステムの最新ランキングでは、ハイパフォーマンス コンピューティング センターで AI を導入する傾向が顕著になっています。さらに、ユーザーが NVIDIA の AI、アクセラレーテッド コンピューティングおよびネットワーク テクノロジを組み合わせて、科学および商用のワークロードを引き続き処理しているのがわかります。

例えば、InfiniBand を使用している、リスト内のいくつものシステムが、昨年に比べて性能を 21% 向上させており、低レイテンシとアクセラレーションによって、AI、HPC およびシミュレーションという時代の潮流に対処できるネットワークとしての存在感を高めています。

InfiniBandネットワークを使用しているシステムの数は、1年前に比べて20%増加しました。

また、リストに新登場した 2 つのシステムは、NVIDIAがスーパークラウドと呼ぶものです。これは、AI、ハイパフォーマンス コンピューティングおよびクラウドのすべてに対応する新しい機能を備えた、共有型のスーパーコンピューターの新たなスタイルです。

スーパークラウドの時代が到来

Microsoft Azure は、パブリック クラウドサービスを新しいレベルへ引き上げ、TOP500 リストの 26 位から 29 位に 4 連続でランクインしたクラスターを提供しています。これらは、ND A100 v4 クラスターと呼ばれるグローバルな AI スーパーコンピューターの一部であり、世界のあらゆるユーザーがオンデマンドで利用できるようになっています。

上記の 4 つの Azure システムはそれぞれ、TOP500 ランキングの基礎となる、64ビット浮動小数点計算での HPC 性能の伝統的な測定法である、Linpack と呼ばれる HPL ベンチマークで16.59 ペタフロップスという処理能力を発揮しました。

産業向け HPC 時代の幕開け

Azure のシステムは、NVIDIA の CEO であるジェンスン フアン (Jensen Huang) が「産業HPC 革命」と呼ぶものの一例であり、科学と産業のあらゆる分野を発展させる、AIと高性能なアクセラレーテッド コンピューティングとの融合が始まったことを示しています。

それを支えているのが 8 基のNVIDIA A100 Tensor コア GPU で、これらが Azure クラスターのそれぞれの仮想インスタンスに能力を与えています。それぞれのチップは HDR 200G InfiniBand とリンクされ、Azure クラウド内の数千の GPU との高速接続を実現しています。

英国の研究者がクラウドネイティブの採用を開始

ケンブリッジ大学が、英国最速の学術向けシステムを新たに発表しました。このスーパーコンピューターは、世界で最もエネルギー効率に優れたシステムをランク付けする、Green500 リストの第 3 位にランクされています。これも、スーパークラウドの一種です。

この Wilkes-3 と名付けられたシステムは世界初のクラウドネイティブ スーパーコンピューターで、これにより研究者は、性能を妥協することなくプライバシーとセキュリティが守られた状態で仮想リソースを共有することができます。これを可能にしたのは、セキュリティ、仮想化およびその他のデータ処理タスクを実行するために最適化された NVIDIA BlueField DPU です。

このシステムでは、320 基の A100 GPU が HDR 200G InfiniBand に接続されており、それによって、学術研究者、ならびに科学および医学の最前線で活動する商業パートナーのシミュレーション、AI およびデータ分析が加速されます。

TOP500 に新登場のシステムが AI に対応

NVIDIA のテクノロジを活用して、TOP500 リストに新登場した、多くのシステムを見れば、科学および商用ユーザー向けのハイパフォーマンス コンピューティングにおいて AI が重要視されていることがわかります。

米国エネルギー省管轄国立エネルギー研究科学計算センター (NERSC) の Perlmutter は、6,144 基の A100 GPU の貢献もあり、64.59 Linpack ペタフロップスを記録し、TOP500 で第 5 位となりました。

このシステムは、HPL-AI の最新バージョンで 0.5 エクサフロップスを越える性能を発揮しました。Perlmutter は、ディープラーニング、ならびに多くの科学および商用ジョブの基本となる混合精度計算を使用するコンバージド HPC および AI のワークロードの新たなベンチマークとなるものでありながら、倍精度計算での正確さも完全に維持しています。

AI 性能の重要性はますます高まっています。「コンセプト実証が本番環境に移行しつつある米国エネルギー省では、AI が成長エリアになっています」と、NERSC のデータ/アナリティクス サービス グループの代表代行であるワヒード ビムジ (Wahid Bhimji) 氏は話しています

HiPerGator AI は、17.20 ペタフロップスで 22 位、Green500 では第 2 位となり、世界で最もエネルギー効率に優れた学術用スーパーコンピューターとなりました。惜しくも Green500 での 1 位の座は逃しましたが、その差はわずか 0.18 Gflops/ワットでした。

最新リストに掲載の他の 12 のシステムと同様に、このシステムも NVIDIA DGX SuperPOD のモジュラー アーキテクチャを採用しており、この方法によりフロリダ大学では、世界で最も強力な学術用 AI スーパーコンピューターの 1 つを迅速に導入することができました。さらに、このシステムによりフロリダ大学は、2030 年までに AI に対応できる卒業生を 3 万人輩出するという目標を公言している最先端の AI 大学の 1 つとなりました。

ルクセンブルクの MeluXina は、10.5 Linpack ペタフロップスで、37 位にランクされました。これは、AI とデータ分析を多様な科学および商用アプリケーションに応用しようとしている、ヨーロッパ各国のスーパーコンピューターのネットワークが初めてリストに送り出したシステムの 1 つです。

Cambridge-1 は、9.68 ペタフロップスで TOP500 の 42 位となり、英国で最も強力なシステムとなりました。このシステムは、AstraZeneca や GSK、Oxford Nanopore といった、学術および商業組織に所属する、英国のヘルスケア関連の研究者に利用されるようになります。

BerzeLiUs は、5.25 ペタフロップスで 83 位となり、スウェーデン最速のシステムとなりました。このシステムは、学術および商用研究のために、60 台の NVIDIA DGX システムに接続された 200G InfiniBand ネットワーク上で、HPC、AI およびデータ分析を実行します。BerzeLiUs は、NVIDIA DGX システムをベースとした 15 のシステムのうちの 1 つです。

HPL-AI の流れを推進する、10 のシステム

AI ワークロードの重要性が高まっていることを示すもう 1 つの兆候として、リストに掲載されたシステムでHPL-AI のスコアを報告したシステムは10システムあり、昨年の 6 月に比べて5倍に増えています。ほとんどのシステムが 3 月にリリースされたコードの大幅な最適化を利用しています。このコードは、2018 年後半にテネシー大学の研究者がベンチマークをリリースして以来、初めてアップグレードされたものです。

この新しいソフトウェアは、通信を効率化し、ホスト CPU の待機時間を解消する、GPU 間のリンクを可能にします。また、Linpack の標準である 32 ビットコードより速い、16 ビットコードでの通信も実装しています。

ベンチマークの定義づけに協力し、現在は NVIDIA のシニアエンジニアであるアッザーム ハイダル アフマド (Azzam Haidar Ahmad) は、次のように述べています。「私たちは、チップ間通信にかかる時間を半分に短縮し、他のワークロードが並行して実行されるようにすることで、元のコードに比べて、平均でおよそ 2.7 倍の向上を実現しました。」

混合精度計算に焦点が当てられているものの、ベンチマークでは、64 ビットの Linpack と同等の精度も実現しています。これは、いくつかの計算を高速に改良する HPL-AI のルーピング テクニックによるものです。

Summit が HPL-AI で 1 エクサフロップスを越える性能を発揮

最適化により、前のバージョンのコードを使用して報告された、昨年のベンチマークに比べて、スコアが大幅に伸びました。

例えば、HPL-AI に最初に対応したオークリッジ国立研究所の Summit スーパーコンピューターは、2019 年のコードの最初のバージョンで 445 ペタフロップスのスコアを出したことを発表しました。最新のバージョンの HPL-AI を使用した、今年の Summit のテストでは、スコアは 1.15 エクサフロップスに到達しました。

このベンチマークを採用している他のシステムには、世界最速のシステムである日本の富岳、世界最速の商用システムである NVIDIA の Selene、およびドイツで最もパワフルなスーパーコンピューターである Juwels があります。

ユーリッヒ スーパーコンピューティング センターのディレクターであるトーマス リッパート (Thomas Lippert) 氏は、次のように話しています。「私たちがHPL-AI のベンチマークを使用する理由は、AI や科学のワークロードの中で増え続けている混合精度演算のすぐれた尺度であるとともに、精度の高い 64ビット浮動小数点の結果も反映されるからです」

Green500 のフロントランナーは GPU

Linpack でのエネルギー効率を測定する Green500 では、上位 40 システムのうち 35システムで NVIDIA のテクノロジが採用されており、上位 10 システムでは 9 つのシステムが NVIDIA のテクノロジを採用しています。リストに掲載されているスーパーコンピューターのなかで、NVIDIA GPU を採用しているものは、採用していないものよりエネルギー効率が 3.5 倍優れており、この傾向は拡大しながら続いています。

詳しくは、6 月 28 日 (太平洋時間) に行われた、NVIDIA のマーク ハミルトン (Marc Hamilton)による「NVIDIA ISC 2021 Special Address」の最新ニュースをご視聴ください。