Oracle Cloud Infrastructure が新しい NVIDIA GPU アクセラレーテッドコンピュートインスタンスを提供

by Dave Salvator · September 22, 2023

hdr-oracle-cloud-infrastructure-nvidia-gpu-accelerated-compute-instances

NVIDIA H100 Tensor コア GPU が一般利用可能になり、NVIDIA L40S GPU が Oracle Cloud Infrastructure で間もなく利用可能に

生成 AI と大規模言語モデル (LLM) が画期的なイノベーションをもたらす中、トレーニングと推論のための計算需要は急増しています。

このような現代の生成 AI アプリケーションには、膨大なワークロードを高速かつ正確に処理できる最先端のインフラストラクチャを始めとする、フルスタックのアクセラレーテッドコンピューティングが必要です。このニーズに応えるため、Oracle Cloud Infrastructure は本日、OCI Compute 上の NVIDIA H100 Tensor コア GPU の一般提供開始と、NVIDIA L40S GPU の近日中の提供開始を発表しました。

OCI 上の NVIDIA H100 Tensor コア GPU インスタンス

NVIDIA Hopper アーキテクチャを採用した NVIDIA H100 GPU を搭載した OCI Compute ベアメタルインスタンスは、あらゆるワークロードに対応する前例のないパフォーマンス、スケーラビリティ、多用途性を備え、大規模な AI やハイパフォーマンスコンピューティングの飛躍を可能にします。

NVIDIA H100 GPU を使用する組織は、NVIDIA A100 Tensor コア GPU を使用する場合と比較して、最大 30 倍の AI 推論性能と、最大 4 倍の AI トレーニング性能が得られます。H100 GPU は、LLM のトレーニングや、LLM を実行する推論など、リソース集約的なコンピューティングタスク向けに設計されています。

BM.GPU.H100.8 OCI コンピュートシェイプには、8 基の NVIDIA H100 GPU が搭載されており、それぞれが 80GB の HBM2 GPU メモリを備えています。8 つの GPU 間の 3.2TB/s の二分帯域幅により、各 GPU は、NVIDIA NVSwitch および NVLink 4.0 を介して、他の 7 基の GPU すべてと直接通信することができます。この構成には、それぞれ 3.84TB の容量を持つ 16 台のローカル NVMe ドライブと、112 コアの第 4 世代 Intel Xeon CPU プロセッサ、2TB のシステムメモリが含まれています。

一言で言えば、この構成は組織の最も困難なワークロードに最適化されています。

タイムラインとワークロードのサイズに応じて、OCI Supercluster は、組織が NVIDIA H100 GPU の使用量を単一ノードから、高性能で超低遅延のネットワーク上の数万基の H100 GPU まで拡張することを可能にします。

OCI 上の NVIDIA L40S GPU インスタンス

NVIDIA Ada Lovelace アーキテクチャに基づく NVIDIA L40S GPU は、データセンター向けのユニバーサル GPU であり、LLM の推論およびトレーニング、ビジュアルコンピューティング、ビデオアプリケーション向けに画期的なマルチワークロードアクセラレーションを提供します。NVIDIA L40S GPU を搭載した OCI Compute のベアメタルインスタンスは、今年後半に早期アクセスを開始し、2024 年の早い時期に一般提供を開始する予定です。

これらのインスタンスは、NVIDIA H100 および A100 GPU インスタンスに代わるものとして、中小規模の AI ワークロードやグラフィックスおよびビデオの計算タスクに対応します。NVIDIA L40S GPU は、NVIDIA A100 と比較して、生成 AI ワークロードで最大 20% の性能向上、AI モデルのファインチューニングで最大 70% の性能向上を実現します。

M.GPU.L40S.4 OCI コンピュートシェイプには、4 基の NVIDIA L40S GPU と、最大 112 コアの最新世代の Intel Xeon CPU、1TB のシステムメモリ、データをキャッシュする 15.36TB の低遅延 NVMe ローカルストレージ、400GB/s のクラスタネットワーク帯域幅が含まれています。このインスタンスは、LLM のトレーニング、ファインチューニング、推論から、NVIDIA Omniverse ワークロードや産業デジタル化、3D グラフィックスとレンダリング、ビデオのトランスコーディング、FP32 の HPC まで、幅広いユースケースに取り組むために作成されました。

NVIDIA と OCI のエンタープライズ AI

OCI と NVIDIA のコラボレーションにより、最先端の NVIDIA H100 および L40S GPU のアクセラレーテッドインフラストラクチャを提供することで、あらゆる規模の組織が生成 AI 革命に参加できるようになります。

しかし、NVIDIA GPU アクセラレーテッドインスタンスへのアクセスだけでは十分ではないかもしれません。OCI Compute 上で NVIDIA GPU の可能性を最大限に引き出すには、最適なソフトウェアレイヤーを用意する必要があります。NVIDIA AI Enterprise は、基盤となる NVIDIA GPU インフラストラクチャに最適化されたオープンソースのコンテナとフレームワークによって、エンタープライズグレードのアクセラレーテッド AI ソフトウェアの開発と展開を合理化し、サポートサービスを提供します。

詳細については、今週、Oracle CloudWorld の AI Pavillion で開催された新しい OCI インスタンスに関するセッションで紹介されました。Oracle Cloud Infrastructure、OCI Compute、Oracle の AI への取り組み、および NVIDIA AI プラットフォームについては、それぞれのウェブページをご覧ください。