オンプレミスとクラウドで AI を開発する違いとは

投稿者: Paresh Kharya

GPU システムをオンプレミスにするかクラウドにするか選ぶのは、家を買うか借りるかを決めるのと似たところがあります。

家を借りる場合は、初期費用を抑えられます。借りている間の家賃を支払うだけで済み、洗濯乾燥機や雨漏りの修理といったサービスが家主の負担になることもあります。2000年代に成人したミレニアル世代の子どもたちの巣立ちを迎え、異なる広さの家に引っ越す時期が来ても、借り手には契約条件で決められた期間その借家にとどまる義務があるだけです。

クラウド上の GPU をレンタルする場合の主な利点も同様で、初めて利用する際の金銭的ハードルが低い、クラウド サービス プロバイダーからサポートが得られる、異なる規模のコンピューティング クラスターへと素早く拡大縮小できるといった特徴が挙げられます。

一方、家を購入する場合は一度きりの決まった金額で済み、物件の購入後は好きなだけそこにいられます。未成年の子どもと住んでいない限り、中で何をしようと所有者に完全な主権があります。賃貸契約がないので、家の中に全員が収まりさえすれば、友人や親戚を数人呼んで長期間泊めても何ら問題はありません。

オンプレミスの GPU に投資する場合の理由もこれと同じです。オンプレミスのシステムなら、ハードウェアが処理できる限りどれだけの時間、いくつのプロジェクトに使ってもかまわないので、コストを気にせずさまざまな方法を繰り返して試しやすいという利点があります。財務情報や医療記録といった機密データの場合、すべてを組織のファイアウォールの内側で管理しなければならないことも考えられます。

実際のユース ケースや関係するデータの種類に応じて、開発者は AI ツールの開発環境としてデスクサイド システム、オンプレミスのデータ センター、クラウドなどを選択できます。大抵のケースでは、最初の実験的導入から大規模展開に移行するまでのさまざまな段階で環境を変えていくことになるでしょう。

クラウド上の GPU を選択するケース

クラウド ベースの GPU は、多言語対応の AI 音声エンジンのトレーニング、糖尿病による失明の初期兆候の検出、メディア圧縮技術の開発といった幅広いタスクに利用できます。スタートアップや研究者、クリエイターは、すぐに利用を開始して、新たなアイデアの探究や実験を進めることができます。GPU のサイズや構成に長期間縛られることはありません。

NVIDIA のデータ センター GPU は、Alibaba CloudAmazon Web ServicesGoogle CloudIBM CloudMicrosoft AzureOracle Cloud Infrastructure など、あらゆる主要クラウド プラットフォームから利用できます。

クラウド サービス プロバイダーは、開発ツールやトレーニング済みのニューラルネットワーク、開発者向けの技術サポートといった役立つリソースを提供して、ユーザーによるセットアップやトラブルシューティングを支援しています。企業が大量のトレーニング用データを収集する場合や、パイロット プログラムを開始する場合、多数の新規ユーザーを受け入れる場合でも、クラウドなら必要なコンピューティング リソースの変動に合わせてインフラストラクチャを容易に拡大できます。

コスト効率面でいえばほかにも、クラウドを研究やコンテナー化されたアプリケーション、実験、その他の時間的制約のないプロジェクトに使用する開発者は、余剰キャパシティを利用することでコストを最大 90% 削減できます。「スポット インスタンス」と呼ばれるこの利用方法は、他の顧客が使用していないクラウド上の GPU のスペースを有効利用して転貸するというものです。

クラウドを長期間利用するユーザーなら、クラウド プロバイダーがサービスを更新するたびに、最新のもっとも高性能なデータ センター GPU へとアップグレードできるという利点もあります。さらに多くの場合、プラットフォームを継続利用することで割引を受けられる特典が用意されています。

オンプレミスの GPU を選択するケース

大量のデータセットに基づく複雑な AI モデルを構築する場合、長期プロジェクトにかかる運用コストが嵩んでいくことがあります。その結果、開発者は反復作業やトレーニングを行うたびに運用コストが気になって、自由に実験しづらくなるかもしれません。オンプレミスの GPU システムなら、開発者は一度きりの決まった金額をかけるだけで、反復作業やテストに思う存分時間を費やすことができます。

データ サイエンティスト、学生、企業がオンプレミスの GPU を使用すれば、累計で何時間システムを使用しているかを計算したり、特定の期間に何回その行程を実施できるかの配分計画を立てたりする必要がなくなります。

最初に新しい手法で失敗しても、異なるコードのバリエーションを試すのに追加投資が不要なので、開発者の創造力が後押しされます。オンプレミス システムを使い込むほど、開発者の投資対効果が高まるというわけです。

強力なデスクトップ GPU から、ワークステーションエンタープライズ システムまで、オンプレミスの AI マシンは幅広い選択肢で実現できます。価格やパフォーマンスのニーズに応じて、開発者は 1 基の NVIDIA GPU や 1 台のワークステーションから始め、最終的に AI スーパーコンピューターによるクラスターへと拡張することも可能です。

NVIDIA と VMware は、vComputeServer ソフトウェアと NVIDIA NGC コンテナー レジストリによって最新の仮想化されたデータ センターをサポートしています。これらは、組織が GPU サーバーを使って仮想環境における AI ワークロードの展開と管理を合理化するのに役立ちます。

ヘルスケア企業人権団体金融サービス業界のいずれもが、データ主権やプライバシーに関する厳しい基準を有しています。オンプレミスのディープラーニング システムなら、AI の導入を容易にしながらも、規制に準拠し、サイバーセキュリティ上のリスクを最小限に抑えることができます。

ハイブリッド クラウド アーキテクチャを選択するケース

多くの企業にとって、1 つの方法を選択するだけでは十分とはいえません。両環境を組み合わせたハイブリッド クラウド コンピューティングであれば、オンプレミス システムが持つセキュリティ面と管理面での利点が得られると同時に、サーバー プロバイダーが提供するパブリック クラウド リソースを利用することもできます。

ハイブリッド クラウドは、リソースへの需要が高まり、オンプレミス リソースではまかないきれなくなった場合に利用できます。このようなやり方を「クラウド バースティング」と呼びます。またあるいは、もっとも機密性の高いデータの処理にオンプレミスのデータ センターを利用する一方で、計算集約的かつ動的なタスクはハイブリッド クラウドで実行するといったケースも考えられます。

多くのエンタープライズ データ センターが既に仮想化されていて、企業の既存のコンピューティング リソースと一貫したハイブリッド クラウドの展開を目指しています。NVIDIA は、VMware Cloud on AWS と協力し、AI、機械学習、データ分析のワークフローといった最新のエンタープライズ アプリケーションに向けて、加速された GPU サービスを提供しています。

このサービスをハイブリッド クラウド ユーザーが利用すれば、データ センターの GPU で加速される仮想サーバーと VMware Cloud との間で、AI ワークロードのシームレスなオーケストレーションおよびライブマイグレーションを実現できます。

両環境の長所を活かす: 開発者の AI ロードマップ

クラウド上の GPU とオンプレミスの GPU のいずれかを選択する作業は、企業や研究チームが AI プロジェクトを開始する前に行う一度きりの意思決定ではありません。開発者はプロジェクトの期間中、さまざまな時点でこの質問を自身に問いかけることになるはずです。

スタートアップ企業なら、初期のプロトタイピングをクラウド上で行った後、ディープラーニング モデルの開発とトレーニングを行うためにデスクトップ システムや GPU ワークステーションに切り替えてもよいでしょう。本番稼働のためにスケールを拡大し、使用するクラスターの数を顧客の需要に応じて変動させる場合には、再びクラウドに戻すことも可能です。さらに独自のグローバル インフラストラクチャを築き上げることになった段階で、GPU を使ったオンプレミスのデータ センターに投資することになるかもしれません。

機密性の極めて高い情報を処理するために AI モデルを構築している組織のように、最初から最後までずっとオンプレミスのマシンだけを使用する場合もあるはずです。「クラウドファースト」の企業となり、オンプレミスのデータ センターを 1 度も構築しないケースもあるでしょう。

組織にとって重要となる指針を 1 つ挙げるとすれば、それは「データが集まる場所でトレーニングを行う」ということです。企業のデータがクラウド サーバーに保管されるならクラウドで AI モデルを開発して、トレーニングのためにオンプレミス システムにデータを動かすのを避けるのが、もっともコスト効率の高い方法と言えるかもしれません。一方、トレーニング用データセットがオンサイトのサーバーに保管されるなら、オンプレミスの GPU によるクラスターに投資することを検討するとよいでしょう。

チームが GPU を利用して AI 開発を加速させるためにどの方法を選んだとしても、NVIDIA では、SDK やコンテナー、オープンソース プロジェクトによってエンジニアの皆さまをサポートできるように各種開発者向けリソースを用意しています。また、NVIDIA Deep Learning Institute では、開発者、データ サイエンティスト、研究者、学生を対象に、アクセラレーテッド コンピューティング ツールの使用方法を学べるハンズオン トレーニングを提供しています。

詳細については、NVIDIA のディープラーニングと AI に関するページをご覧ください。

この記事のメイン画像は MyGuysMoving.com から提供され、CC BY-SA 2.0 に基づいて Flickr からライセンス供与を受けたものです。