NVIDIA、持続可能で効率的なコンピューティングをサポートする液冷GPU を発表

投稿者: Joe DeLaere

液冷の NVIDIA A100 PCIe GPU は、高性能でグリーンなデータセンターに対する顧客の需要に応える、初のメインストリーム サーバー向け GPU

気候変動を食い止めるための世界的な取り組みの中で、ザック スミス (Zac Smith) 氏は、高性能とエネルギー効率の両方を提供するデータセンターの構築という、成長中のムーブメントに関わっています。

彼は、240 を超えるデータセンターを管理するグローバル サービス プロバイダーである Equinix のエッジ インフラストラクチャの責任者であり、本セクターで初めてクライメイト ニュートラル (気候中立) になることを約束しています。

「私たちには、この旅の手助けを求め、頼りにされている 1 万人の顧客がいます。彼らはより多くのデータとインテリジェンスをほとんどの場合 AI と共に要求し、それらを持続可能な方法により望んでいます」と語るスミス氏は、ジュリアード音楽院の卒業生であり、2000 年代初頭にニューヨークのミュージシャン仲間のためにウェブサイトを構築し技術畑に進んだ経歴を持ちます。

効率面での進歩

4 月の時点で、Equinix は 49 億ドルのグリーンボンドを発行しています。これらは、Equinix が、データセンターが使用するエネルギーのどれだけがコンピューティング タスクに直接使用されるかを示す業界指標である電力使用効率 (PUE) を最適化することにより、環境への影響を軽減するために適用される投資適格債です。

データセンターのオペレーターは、その比率を理想の 1.0 PUE にさらに近づけようとしています。Equinix の施設の現在の平均 PUE は 1.48 PUEで あり、その最高の新しいデータセンターでは 1.2 未満を記録しています。


Equinix は、PUE (挿入図) で測定したデータセンターのエネルギー効率を着実に向上させています。

もう 1 つの前進として、Equinix は 1 月に、エネルギー効率の向上を追求するための専用施設を開設しました。 その作業の一部は、液体冷却に焦点を当てています。

メインフレームの時代に生まれた液体冷却は、AI の時代に成熟しつつあります。 現在、ダイレクトチップ冷却と呼ばれる最新の方式で、世界最速のスーパーコンピューター内で広く使用されています。

液体冷却は、CPU よりも AI 推論で最大 20 倍優れたエネルギー効率をすでに提供している NVIDIA GPU のアクセラレーテッド コンピューティングの次のステップです。

アクセラレーションによる効率化

世界中で AI を実行しているすべての CPU のみを搭載したサーバーを GPU アクセラレーテッド システムに切り替えると、年間 11 兆ワット時のエネルギーを節約できます。 これは、年間 150 万世帯が消費するエネルギーを節約するのと同じです。

今日、NVIDIA は、ダイレクトチップ冷却を使用した最初のデータセンター PCIe GPU のリリースにより、持続可能性への取り組みを強化します。

Equinix は、持続可能な冷却と熱回収への包括的なアプローチの一環として、データセンターにA100 80GB PCIe 液冷 GPU を採用しました。この GPU は現在サンプルを提供中であり、今年の夏に一般提供される予定です。

水と電力の節約

「これは、Equinixのラボに導入された最初の液冷GPU であり、お客様が AI を活用する持続可能な方法を渇望していることから、私たちにとっても心躍るものです」とスミス氏は述べています。

データセンターのオペレーターは、データセンター内の空気を冷却するために年間数百万ガロンの水を蒸発させる冷却装置を排除することを目指しています。液体冷却は、主要なホット スポットに焦点を合わせ、閉じたシステムで少量の液体を循環させるシステムを実現します。

「私たちは廃棄物を資産に変えるのです」とスミス氏は述べています。

同じパフォーマンスで少ない電力

別々のテストで、Equinix と NVIDIA は、液冷式を採用するデータセンターが約 30 % 少ないエネルギーを使用しながら、空冷施設と同じワークロードを実行できることを発見しました。NVIDIA は、液冷式データセンターが 1.15 PUE に達する可能性があると推定しています。これは、空冷式の 1.6 をはるかに下回ります。

液冷式データセンターは、同じスペースに 2 倍のコンピューティングを詰め込むこともできます。これは、A100 GPU が 1 つの PCIe スロットのみを使用するためです。空冷の A100 GPU は 2 スロットを占有します。


NVIDIA は、液体冷却による電力の節約と密度の向上を確認しています。

少なくとも 12 のシステムメーカーが、今年後半にこれらの GPU を製品に採用することを計画しています。この中には、ASUS、ASRock Rack、Foxconn Industrial Internet、GIGABYTE、H3C、Inspur、Inventec、Nettrix、QCT、Supermicro、Wiwynn、xFusion が含まれています。

世界的なトレンド

エネルギー効率基準を設定する規制は、アジア、ヨーロッパ、および米国で検討されています。これにより、銀行やその他の大規模なデータセンター運営者も液体冷却を評価しはじめています。

また、このテクノロジはデータセンターに限定されていません。車やその他のシステムは、限られたスペースに組み込まれた高性能システムを冷却するために、この技術を必要とします。

持続可能性への道

「これは旅の始まりです」と、スミス氏は、主流となるであろうこの液冷式のアクセラレーターのデビューについて述べています。

実際、A100 PCIe カードに続いて、来年NVIDIAは NVIDIA Hopper アーキテクチャ ベースのH100 Tensor コア GPU を搭載したバージョンをリリースする予定です。また近い将来、高性能なデータセンター GPU と NVIDIA HGX プラットフォームで液体冷却をサポートする予定です。

迅速な採用のために、今日の液冷 GPU は、より少ないエネルギーで同等のパフォーマンスを提供します。将来的には、これらのカードが同じエネルギーでより多くのパフォーマンスを得るオプションを提供することを期待しています。

「ワット数の測定だけでは意味がありません。炭素への影響に対して得られるパフォーマンスこそが、私たちが目指すべきものなのです」とスミス氏は述べています。

新しい A100 PCIe 液冷 GPU の詳細については、こちらをご覧ください。