NVIDIA が MLPerf のテストにおいて推論を新たな高みへ

投稿者: Dave Salvator

最新の MLPerf ベンチマークで、NVIDIA H100 および L4 がジェネレーティブ AI とその他すべてのワークロードを新しいレベルに引き上げ、Jetson AGX Orin のテスト結果も性能と効率が向上

MLPerf は、独立した第三者機関のベンチマークとして、AI 性能の決定的な測定値であり続けています。NVIDIA の AI プラットフォームは、今週発表された MLPerf Inference 3.0 ベンチマークを含め、MLPerf の開始以来、トレーニングおよび推論の両方で一貫してリーダーシップを示しています。

NVIDIA の創業者/CEO である Jensen Huang (ジェンスン フアン) は次のように述べています。「A100 を発表した 3 年前、AI の世界はコンピューター ビジョンに支配されていましたが、そこにジェネレーティブ AI が到来しました。」

これこそが、Transformer Engine を搭載し、GPT に最適化した Hopper を NVIDIA が開発した理由です。最新の MLPerf 3.0 では、Hopper が A100 の 4 倍の性能を発揮していることが示されています。

また、フアンは以下のように続けています。「次のレベルのジェネレーティブ AI には、大規模言語モデルを優れたエネルギー効率でトレーニングするための新しい AI インフラが必要です。顧客は Hopper をスケールアップさせ、NVIDIA NVLink と InfiniBand で接続された数万基の Hopper GPU で AI インフラを構築しています。

業界は、安全で信頼できるジェネレーティブ AI のための、新たな進歩に懸命に取り組んでおり、Hopper がこの本質的な取り組みを可能にしています」

最新の MLPerf の結果は、NVIDIA がクラウドからエッジまで、AI 推論を新たなレベルのパフォーマンスと効率に引き上げていることを示しています。

具体的には、DGX H100 システムに搭載された NVIDIA H100 Tensor コア GPU は、MLPerf の最新のラウンドにおいて、AI 推論のすべてのテストにおいて最高のパフォーマンスを発揮しました。ソフトウェアの最適化により、この GPU は昨年 9 月に MLPerf デビューを果たしてから最大 54% の性能向上を達成しました。

ヘルスケアの分野では、医用画像の MLPerf ベンチマークである 3D-UNet において、H100 GPU は 9 月から 31% の性能向上を実現しました。

Hopper アーキテクチャを採用した H100 GPU は、Transformer Engine を搭載し、今日のジェネレーティブ AI の幅広い活用への道を開いた Transformer ベースの大規模言語モデルである BERT で優れた性能を発揮しました。

ジェネレーティブ AI は、テキスト、画像、3D モデルなどを素早く作成することができます。この機能は、スタートアップからクラウド サービス プロバイダーまで、新しいビジネス モデルを実現し、既存のビジネス モデルを加速させるため急速に採用されています。

現在、何億人もの人々が、素早い応答を求めて、ChatGPT のようなジェネレーティブ AI ツールを使っています。

この「AI における iPhone の瞬間」において、推論に関する性能は極めて重要です。ディープラーニングは現在、あらゆる場所で導入されており、工場からオンライン レコメンダー システムまで、推論性能に対するニーズを後押ししています。

L4 GPU が鮮烈デビュー

NVIDIA L4 Tensor コア GPU は、MLPerf テストにおいて、前世代の T4 GPU の 3 倍以上の速度でデビューを果たしました。ロープロファイルのフォーム ファクターにパッケージされたこのアクセラレータは、ほとんどのサーバーで高いスループットと低遅延を実現するように設計されています。

L4 GPU で、すべての MLPerf のワークロードが実行されました。重要な FP8 形式をサポートしているおかげで、特に高い性能を要求する BERT モデルにおいて、特筆すべき結果を示しました。

L4 GPU は、優れた AI 性能に加え、最大 10 倍高速な画像デコード、最大 3.2 倍高速なビデオ処理、4 倍以上高速なグラフィックスおよびリアルタイム レンダリング性能を実現します。

2 週間前の GTC で発表されたこのアクセラレータは、すでに主要なシステム メーカーやクラウド サービス プロバイダーから提供が開始されています。L4 GPU は、GTC で発表された NVIDIA の AI 推論プラットフォームのポートフォリオに追加された最新のものです。

システムのテストにおいてソフトウェアとネットワークが輝く

NVIDIA のフルスタック AI プラットフォームは、新しい MLPerf テストでそのリーダーシップを示しました。

いわゆるネットワーク分割ベンチマークは、データをリモートの推論サーバーにストリーミングします。これは、ユーザー企業がファイアウォールの背後に保存されたデータを使用してクラウド上で AI ジョブを実行するという一般的なシナリオを反映したものです。

BERT は、リモートの NVIDIA DGX A100 システムにおいて、ローカルでの性能の最大 96% まで発揮しましたが、一部のタスクを完了するための CPU の待機時間が発生したため、その性能は低下していました。GPU のみで処理されるコンピューター ビジョンの ResNet-50 テストでは、100% を達成しました。

この結果は、NVIDIA Quantum Infiniband ネットワーク、NVIDIA ConnectX SmartNICNVIDIA GPUDirect などのソフトウェアによるところが大きいと言えます。

Orin がエッジにおいて 3.2 倍の性能向上を達成

また、NVIDIA Jetson AGX Orin システムオンモジュールは、1 年前のテスト結果と比較して、エネルギー効率で最大 63%、性能で最大 81% 向上しました。Jetson AGX Orin は、バッテリーで駆動するシステムを含め、電力が限られた空間で AI が求められる際の推論性能を供給します。

より小型で消費電力の少ないモジュールが必要なアプリケーションでは、Jetson Orin NX 16G がベンチマークでデビューし、優れた性能を発揮しました。前世代の Jetson Xavier NX プロセッサの最大 3.2 倍の性能を達成しています。

幅広い NVIDIA AI のエコシステム

MLPerf の結果は、NVIDIA AI が機械学習における業界で最も広範なエコシステムに支えられていることを示しています。

今回、NVIDIA のプラットフォームを活用してテスト結果を提出したのは計 10 社です。これには、Microsoft Azure クラウド サービスや、ASUS、Dell Technologies、GIGABYTE、H3C、Lenovo、Nettrix、Supermicro、xFusion などのシステム メーカーが含まれます。

これらの企業の取り組みは、クラウドと自社のデータセンターで稼働するサーバーの両方で、ユーザーが NVIDIA AI で素晴らしいパフォーマンスを得られることを示しています。

NVIDIA のパートナーが MLPerf に参加するのは、AI プラットフォームやベンダーを評価する顧客にとって、MLPerf が貴重なツールであることを知っているからです。最新のラウンドでの結果は、彼らが今日提供しているパフォーマンスが、NVIDIA プラットフォームとともに成長することを証明しています。

ユーザーが求める多彩な性能

NVIDIA AI は、データセンターとエッジ コンピューティングにおいて、すべての MLPerf 推論ワークロードとシナリオのテストを実行した唯一のプラットフォームです。その多彩なパフォーマンスと効率性により、ユーザーが真の勝者となります。

実世界のアプリケーションでは、通常、さまざまな種類のニューラル ネットワークが多数採用され、しばしばリアルタイムで答えを導き出す必要があります。

例えば AI アプリケーションは、ユーザーの音声による要求を理解し、画像の分類、レコメンドを行い、応答を人間の声で音声メッセージとして提供する必要があるかもしれません。それぞれのステップで、異なるタイプの AI モデルが必要になります。

MLPerf ベンチマークは、これらのワークロードやその他の一般的な AI ワークロードを網羅しています。そのため、このテストにより、IT の意思決定者は、信頼性が高く、柔軟に展開できるパフォーマンスが得られることを確信できます。

MLPerf のテストは透明性が高く客観的であるため、ユーザーは MLPerf の結果を信頼して、情報に基づいた購買決定を行うことができます。このベンチマークは、Arm、Baidu、Facebook AI、Google、Harvard、Intel、Microsoft、スタンフォード大学、トロント大学を含む幅広い機関から支持されています。

すぐに使用できるソフトウェア

NVIDIA AI プラットフォームのソフトウェアのレイヤーである NVIDIA AI Enterprise は、ユーザーがインフラストラクチャへの投資から最適化されたパフォーマンスを得るだけでなく、企業のデータセンターで AI を実行するために必要なエンタープライズ グレードのサポート、セキュリティ、信頼性を保証します。

これらのテストに使用したソフトウェアはすべて MLPerf のリポジトリから利用できるため、どなたでもこの世界最高水準の結果を得ることができます。

ソフトウェアの最適化は、NVIDIA の GPU アクセラレーテッド ソフトウェアのカタログである NGC で提供されるコンテナに継続的に反映されています。このカタログから入手可能な NVIDIA TensorRT は、今回の MLPerf で NVIDIA が提出したすべてのテスト結果において、AI 推論を最適化するために使用されています。

NVIDIA の MLPerf のパフォーマンスと効率性を支える最適化についての詳細は、技術ブログ (英語) をご覧ください。