次世代 AI プラットフォームが NVIDIA H100 GPU を使い、AI の主要な課題に取り組む
Meta は、同社の次世代 AI プラットフォームである Grand Teton を発表しました。この発表には、設計における NVIDIA の協力も明らかにされています。
Open Compute Project (OCP) が開催する 2022 OCP Global Summit において、Meta Infrastructure Hardware のバイス プレジデントであるアレクシス ビョーリン (Alexis Bjorlin) 氏は、Grand Teton システムには同社の前世代のプラットフォームである Zion EX に比べて、より多くのメモリ、ネットワーク帯域幅および演算能力が搭載されている、と話しています。
Facebook では、ニュース配信、コンテンツのレコメンデーション、ヘイトスピーチの識別といったサービス、ならびに多様な他のアプリケーションで AI モデルが幅広く使用されています。
「本サミットでこの新しいファミリー メンバーを紹介できてとてもうれしく思っています」とビョーリン氏はプレゼンテーションで話し、さらに Grand Teton の設計への多大なる協力と OCP への継続的な支援に対し NVIDIA に感謝の言葉を述べました。
データセンター規模の設計
ワイオミング州の 2 つの国立公園のうちの 1 つにそびえ立つ、高さ 1 万 3,000 フィート (約 4,000 メートル) の山にちなんで名付けられた Grand Teton は、NVIDIA H100 Tensor コア GPU を搭載し、急速に規模と性能を拡大させ、演算能力の大幅な向上を必要とする AI モデルをトレーニングし、モデルを実行します。
H100 のベースとなったNVIDIA Hopper アーキテクチャは、自然言語処理やヘルスケア、ロボティクスなど、次々と増えるアプリケーションへの対応が可能であるため、しばしば基盤モデルと呼ばれるこれらのニューラルネットワークの処理を加速する Transformer Engine を搭載しています。
NVIDIA H100 は、性能だけでなく、エネルギー効率を重視して設計されています。H100 アクセラレーテッド サーバーは、NVIDIA ネットワーキングでハイパースケールのデータセンターにある数千台のサーバーと接続すると、CPU のみを使用しているサーバーに比べて、エネルギー効率が 300 倍以上高くなります。
NVIDIA のハイパースケールおよびハイパフォーマンス コンピューティング担当バイス プレジデントであるイアン バック (Ian Buck) は、次のように述べています。「NVIDIA Hopper GPU は、世界で最も困難な課題を解決するために作られています。エネルギー効率がこれまでよりはるかに優れ、性能も向上しているアクセラレーテッド コンピューティングを実現し、さらには規模を拡大し、費用の節約をも可能にします。Meta が H100 を搭載した Grand Teton プラットフォームの設計を共有することで、世界中のシステム ビルダーはまもなく、ハイパースケール データセンターのコンピューティング インフラストラクチャのためのオープン デザインにアクセスし、さまざまな業界で AI を加速できるようになるでしょう」
山のようなマシン
Meta によれば、前世代の Zion システムに比べて、Grand Teton は、ネットワーク帯域幅が 2 倍、ホストプロセッサと GPU アクセラレーター間の帯域幅は 4 倍にもなっています。
ネットワーク帯域幅の増加により、Meta では、より大規模なシステムのクラスタを構築して、AI モデルのトレーニングができるようになる、とビョーリン氏は話しています。さらに、Zion よりも多くのメモリが搭載されているため、より大きな AI モデルを格納および実行できるようになります。
展開の簡素化、信頼性の向上
これらの機能を 1 つの統合型サーバーにすべて組み込むことにより、「システムの展開が劇的に簡素化されるため、当社ではフリートの設置とセットアップをより迅速にできるようになり、さらに信頼性を向上させることができます」とビョーリン氏は話しています。