Microsoft Azure が NVIDIA A100 GPU 仮想マシンの一般提供開始を発表

投稿者: Ian Buck

Microsoft Azure は、NVIDIA A100 Tensor コア GPU と NVIDIA HDR InfiniBand を搭載し、スーパーコンピュータークラスの AI および HPC ワークロード向け仮想マシンとして同ブランドの中で最も強力な ND A100 v4 VM シリーズの一般提供開始を発表しました。

NVIDIA は Azure と協力して、画期的な NVIDIA Ampere アーキテクチャ GPUNVIDIA ネットワーキング テクノロジ、および Azure の高性能なインターコネクトと仮想マシン ファブリックのパワーを組み合わせることで、AI スーパーコンピューティングを誰もが利用できるようにする、この新しいスケールアップ/スケールアウト AI プラットフォームを設計しました。

AI や HPC の大きな課題を解決するにあたっては、スケールが命です。とりわけ、自然言語処理、レコメンダー システム、ヘルスケアの研究、創薬、およびエネルギーの分野は、いずれもアクセラレーテッド コンピューティングによって著しい進化を遂げています。

そうした進化の大部分は、大規模にアプリケーションを実行することによってもたらされてきました。この流れを加速するには、柔軟性が高く、利用しやすく、スケールアップもスケールアウトも可能なアーキテクチャ上でアプリケーションを実行する必要があります。

ND A100 v4 VM は、GPU当たり 200Gb/s のデータ帯域幅を実現する NVIDIA HDR InfiniBand により、8 基の NVIDIA A100 GPU を 1 台の 仮想マシンに構成したもので、仮想マシン 1 台当たりのインターコネクト帯域幅は、実に 1.6 Tb/s にも及びます。

さらに、要件が最も厳しい AI / HPC ワークロードに対しては、同じ低レイテンシの InfiniBand ファブリックで数千基の NVIDIA A100 GPU までスケールアウトすることができ、マルチノードの分散コンピューティングに必要な処理能力とネットワーク能力を提供します。

開発者のための万全なサポート

開発者は、アプリケーション開発の面でも、アプリケーションを展開した後のインフラストラクチャ管理の面でも、ND A100 v4 VM を構成する NVIDIA A100 GPU の性能を最大限に引き出すためのさまざまな選択肢があります。

開発の簡素化と迅速化のために、NVIDIA NGC カタログには、GPU に最適化され、すぐに利用可能なアプリケーション フレームワーク、コンテナー、トレーニング済みモデル、ライブラリ、SDK、および Helm チャートが用意されています。Azure Marketplace で公開されている事前構築済みの NVIDIA GPU 最適化 AI / HPC 向けイメージを利用すれば、わずか数クリックでNGC カタログの GPU アクセラレーション対応ソフトウェアを使い始めることができます。

ND A100 v4 VM は、インタラクティブな AI 開発、分散学習、バッチ推論、ML Ops による自動化を実現する Azure Machine Learning サービスでもサポートされています。

ND A100 v4 VM による機械学習パイプラインの実運用への展開は、NVIDIA Triton Inference Server を使用すればさらに簡素化されます。NVIDIA Triton Inference Server は、Azure ML と統合されたオープンソースの推論サービス アプリケーションであり、GPU と CPU の性能を最大限に引き出しながら、展開時の運用コストを最小限に抑えるのに役立ちます。

開発者とインフラストラクチャの管理者は、まもなくフルマネージドの Kubernetes サービスである Azure Kubernetes Service を使用して、NVIDIA A100 GPU で構成された ND A100 v4 VM 上で、コンテナー化されたアプリケーションの展開と管理を行えるようになります。

Microsoft Azure の ND A100 v4 VM についてもっとよく知り、画期的なクラウド ソリューションの開発に取りかかりましょう。

詳しくは、Microsoft 社コーポレート バイスプレジデントのギリシュ バブラニ (Girish Bablani) 氏と筆者による GTC21 での講演 「Azure: Empowering the World with High-Ambition AI and HPC」をご覧ください。