最適化に注力を:データセンターにはエネルギー効率の新たな測定基準が必要

投稿者: Jeremy Rodriguez

スーパーコンピューターとデータセンターの運営者は、持続可能なコンピューティングに向けた進捗を測るエネルギー単位あたりの有用な作業尺度を欠いています。

データセンターには、実世界のアプリケーションにおける進捗を示す、より優れたエネルギー効率の道標となる進化したダッシュボードが必要です。

エネルギー効率の公式は単純で、「作業量÷消費エネルギー」です。これをデータセンターに適用するにはいくつかの詳細を明らかにする必要があります。

現在最も広く使用されている指標の PUE (電力使用効率) は、ある施設が消費する総エネルギー量とその施設のコンピューティング インフラによる使用量を比較するものです。この 17 年間、PUE は最も効率的な運営者を、電力変換や冷却といった過程においてほぼ一切エネルギーを無駄にしないという理想に近付けてきました。

新たな測定基準を見つける

PUE は、クラウド コンピューティングが台頭する中でデータセンターに大いに貢献してきました。そして、今後も有用であり続けるでしょう。しかし、ワークロードとそれを実行するシステムが劇的に変化した昨今の生成 AI 時代にあっては、PUE では不十分です。

その理由は、PUE がデータセンターの有用なアウトプットを測定せず、エネルギー消費量だけを測定するからです。これは、エンジンのガソリン使用量を測定し、車の走行距離には言及しないようなものです。

データセンターの効率には多くの基準が存在します。2017 年のある論文は、30 ほどの基準を挙げており、そのいくつかは、冷却、水使用、セキュリティ、費用といった特定のターゲットに焦点を当てたものでした。

ワットとは何かを理解する

エネルギー効率に関して言えば、コンピューター業界には、使用するシステムとそれに用いるプロセッサの電力について決まってワットで表現するという、長く、いくぶん残念な歴史があります。ワットは価値ある測定基準ですが、多くの人々は、ワットがある時点での入力電力だけを測定するもので、コンピューターが実際に使用するエネルギーや、どれほど効率的にエネルギーを使用するかを測定するものではないことを忘れています。

そのため、最新のシステムおよびプロセッサがワット単位で入力電力レベルの増加を報告する場合、これらのエネルギー効率が悪いということではありません。実際、消費エネルギーに対する作業量でみれば、多くの場合はるかに効率が良いのです。

最新のデータセンターの測定基準は、エンジニアリング業界で一般的に用いられるキロワット時やジュールといったエネルギー単位に焦点を当てるべきです。重要なのは、そのエネルギーによってどれだけ有用な作業が行われたかということです。

作業と呼ばれるものを考え直す

ここでも同様に、この業界には、プロセッサ命令や数学的計算のような抽象的な用語によって測定する習慣があります。それゆえ、MIPS (100 万命令/秒) や FLOPS (浮動小数点演算数/秒) が広く用いられます。

システムがこれらの低レベルの作業をどれほど多く処理できるかを気にするのは、コンピューター科学者だけです。ユーザーはむしろ、システムがどれだけ多くの現実の作業をこなすかを知りたがるでしょうが、有用な作業の定義はいくぶん主観的なものです。

AI に特化するデータセンターは、MLPerf ベンチマークを頼りにすることができます。科学研究に取り組むスーパーコンピューティング センターは、一般的に作業に対し追加の尺度を用います。ストリーミング メディアに注力する商業用データセンターは他の尺度を必要とするかもしれません。

結果として生みだされた一連のアプリケーションは、最先端の最も重要な使用事例を反映させるために、時を追って進化する必要があります。例えば、MLPerf の最新ラウンドは、5 年前には存在すらしなかった生成 AI モデルを用いた 2 つのテストが追加されました。

アクセラレーテッド コンピューティング用の尺度

理想としては、いかなる新たなベンチマークも、アクセラレーテッド コンピューティングにおける進歩を測定すべきです。この並列処理ハードウェア、ソフトウェアおよび手法の組み合わせが、多くの現代的ワークロードにおいて、アプリケーションを CPU より劇的に速く、より効率的に実行しています。

例えば、科学アプリケーションでは、米国立エネルギー研究科学計算センター (NERSC) のスーパーコンピューター「Perlmutter」が、アクセラレーテッド コンピューティングを用いて平均 5 倍のエネルギー効率を示しました。だからこそ、Green500 リストにおけるトップ 50 のうち、 第 1 位のシステムを含む 39 台が NVIDIA GPU を用いたスーパーコンピューターなのです。

多くのタスクを並行して実行するので、GPU は CPU より多くの作業をより短い時間で実行し、エネルギーを節約します。

多くの業界の企業が同様の結果を共有しています。例えば、PayPal はアクセラレーテッド コンピューティングにより、リアルタイム不正検出を 10% 向上させ、8 分の 1 近くまでサーバーのエネルギー消費量を減らしました。

新世代の GPU ハードウェアおよびソフトウェアが登場する度に、その効果は大きくなっています。

最近のレポートで、スタンフォード大学の人間中心 AI グループは、GPU のパフォーマンスが 2003 年から「およそ 7,000 倍増加」しており、価格あたりのパフォーマンスは「5,600 倍高くなった」と推計しました。

データセンターには、主要ワークロードのエネルギー効率を把握するための一連のベンチマークが必要です。

2 人の専門家の意見

専門家も新たなエネルギー効率測定基準の必要性を感じています。

昨今のデータセンターが約 1.2 PUE のスコアを達成する中、この測定基準は「役目を終えた」と、PUE の最初の着想を得たデータセンター エンジニアである Christian Belady 氏は述べています。「PUE は悪い状況の時にデータセンターの効率を改善しましたが、20 年が経過し、状況は良くなり、現在の問題により適した別の測定基準に焦点を当てる必要があります」

データセンターの持続可能性を促進する取り組みに携わり続けている Belady 氏は次のように述べています。「究極の目標はパフォーマンスの測定基準です。さまざまなワークロードを直接比較することはできませんが、ワークロードによって分ければ、成功の可能性は高まると思います」

コンピューターの効率と持続可能性に関する研究者であり、著作家でもある Jonathan Koomey 氏もこれに同意しています。

Koomey 氏は次のように述べています。「効率について適切な決断をするために、データセンターの運営者には、現在最も広く使われる AI ワークロードのエネルギー面での影響を測定する一連のベンチマークが必要です」

加えて、Koomey 氏は次のように述べています。「1 ジュールあたりのトークンは、そのような一連の測定基準がどんなものでありうるかについての素晴らしい一例です。これらの測定基準が実世界のアプリケーションを実行するハードウェアのエネルギー使用量を正確に示すようにするために、各企業が開かれた議論に参加し、自社のワークロードと実験のニュアンスに関する情報を共有し、現実的な試験手順に合意することが必要となります」

「最終的に、この重要な仕事を行うために、開かれた公開のフォーラムが必要です」

大勢の努力が必要

PUE のような測定基準や、Green500 のようなランキングのおかげで、データセンターおよびスーパーコンピューティング センターはエネルギー効率に関して大幅な進歩を遂げてきました。

生成 AI 時代に効率向上を拡大するために、さらなる取り組みが可能であり、必要でもあります。今日の各主要アプリケーションで有用なエネルギー消費の測定基準は、スーパーコンピューティングとデータセンターを、新たなレベルのエネルギー効率に導く可能性があります。

利用可能なエネルギー効率ソリューションの詳細については、NVIDIA の持続可能なコンピューティングをご覧ください。