史上最大規模の NVIDIA DGX A100システムとなるMeta の AI スーパーコンピューターが、5 EFLOPS の AI 性能とともに、数千の GPU にわたる最適化を可能にする最先端の NVIDIA システム、InfiniBand ファブリックおよびソフトウェアを Meta の AI 研究者に提供
Meta Platforms は、同社がこれまでで最もパワフルな研究用システムであると考えているスーパーコンピューターに NVIDIA のテクノロジを採用しました。
新たに発表された、この AI Research SuperCluster (RSC) では、AI を進化させるために、すでに新しいモデルがトレーニングされています。
完全に構築されると、Meta の RSC は、NVIDIA DGX A100 システムの導入する顧客の中で、最大のシステムになる見込みです。
Meta Platforms は同社のブログで、次のように記しています。「当社は、RSC により、まったく新しい AI システムを構築できるようになるでしょう。例えば、リアルタイムの音声翻訳を、それぞれが異なる言語を話す大人数のグループに提供し、シームレスに研究プロジェクトで連携したり、一緒に AR ゲームをプレイしたりできるようになります」
大規模な AI モデルのトレーニング
RSC が完全に構築される今年の後半には、Meta では RSC を活用して、1 兆を超えるパラメータを持つ AI モデルをトレーニングする予定です。これにより、自然言語処理のような分野が発展し、リアルタイムで有害なコンテンツを識別するような作業が可能になるでしょう。
大規模な性能に加え、Meta では、「幅広いAI モデル」に対処するための優れた信頼性、セキュリティ、プライバシーおよび柔軟性を、RSC の重要な基準として挙げています。
システムの内部
現在、この新しい AI スーパーコンピューターでは、演算ノードとして、760台 のNVIDIA DGX A100 システムが使用されています。これら NVIDIA DGX A100 システムでは、合計 6,080 基の NVIDIA A100 GPU が NVIDIA Quantum 200Gb/s InfiniBand ネットワークに接続されており、TF32 で 1,895 PFLOPS の処理能力を実現します。
COVID-19 という試練のなかでも、RSC は、わずか 18 か月で机上の計画から実際に稼働する AI スーパーコンピューター (下の動画をご参照ください) へと姿を変えましたが、その基盤となっている NVIDIA DGX A100 のテクノロジも、このような迅速な展開の一因となっています。
性能が 20 倍アップ
自社の研究インフラストラクチャの基盤として、Meta が NVIDIA のテクノロジを採用するのは、今回が 2 度目となります。2017 年、Meta は第 1 世代の AI 研究用インフラストラクチャを構築し、1 日に 3 万 5,000 件の AI トレーニング ジョブを処理できる、2 万 2,000 基の NVIDIA V100 Tensor コア GPU を搭載しました。
Meta による RSC の初期のベンチマークでは、従来のシステムと比べて大規模な NLP モデルを 3 倍の速度でトレーニング可能で、コンピューター ビジョンのジョブを20 倍の速度で処理できることが示されました。
今年後半の第 2 フェーズでは、RSC は搭載する GPU の数を 1 万 6,000 基にまで増やす予定です。これにより、Metaは、5 EFLOPS の混合精度 AI 性能を達成できると想定しています。また、Meta は、RSC のストレージ システムを拡張し、1 秒間に 16 TB の速度で、最大 1 EB のデータを処理できるようにすることを目指しています。
スケーラブルなアーキテクチャ
NVIDIA AI テクノロジは、あらゆる規模の企業にご利用いただけます。
フルスタックの NVIDIA AI ソフトウェアを実装した NVIDIA DGX は、単一のシステムから、オンプレミスまたはコロケーション プロバイダーで稼働する DGX SuperPOD へと、簡単に拡張することが可能です。また、DGX システムは、NVIDIA DGX Foundry を通じてレンタルすることもできます。