オンプレミスとクラウドで AI を開発する違いとは

by Paresh Kharya · September 25, 2019

hdr-whats-difference-between-ai-on-premises-in-the-cloud

GPU システムをオンプレミスにするかクラウドにするか選ぶのは、家を買うか借りるかを決めるのと似たところがあります。

家を借りる場合は、初期費用を抑えられます。借りている間の家賃を支払うだけで済み、洗濯乾燥機や雨漏りの修理といったサービスが家主の負担になることもあります。2000年代に成人したミレニアル世代の子どもたちの巣立ちを迎え、異なる広さの家に引っ越す時期が来ても、借り手には契約条件で決められた期間その借家にとどまる義務があるだけです。

クラウド上の GPU をレンタルする場合の主な利点も同様で、初めて利用する際の金銭的ハードルが低い、クラウドサービスプロバイダーからサポートが得られる、異なる規模のコンピューティングクラスターへと素早く拡大縮小できるといった特徴が挙げられます。

一方、家を購入する場合は一度きりの決まった金額で済み、物件の購入後は好きなだけそこにいられます。未成年の子どもと住んでいない限り、中で何をしようと所有者に完全な主権があります。賃貸契約がないので、家の中に全員が収まりさえすれば、友人や親戚を数人呼んで長期間泊めても何ら問題はありません。

オンプレミスの GPU に投資する場合の理由もこれと同じです。オンプレミスのシステムなら、ハードウェアが処理できる限りどれだけの時間、いくつのプロジェクトに使ってもかまわないので、コストを気にせずさまざまな方法を繰り返して試しやすいという利点があります。財務情報や医療記録といった機密データの場合、すべてを組織のファイアウォールの内側で管理しなければならないことも考えられます。

実際のユースケースや関係するデータの種類に応じて、開発者は AI ツールの開発環境としてデスクサイドシステム、オンプレミスのデータセンター、クラウドなどを選択できます。大抵のケースでは、最初の実験的導入から大規模展開に移行するまでのさまざまな段階で環境を変えていくことになるでしょう。

クラウド上の GPU を選択するケース

クラウドベースの GPU は、多言語対応の AI 音声エンジンのトレーニング、糖尿病による失明の初期兆候の検出、メディア圧縮技術の開発といった幅広いタスクに利用できます。スタートアップや研究者、クリエイターは、すぐに利用を開始して、新たなアイデアの探究や実験を進めることができます。GPU のサイズや構成に長期間縛られることはありません。

NVIDIA のデータセンター GPU は、Alibaba Cloud、Amazon Web Services、Google Cloud、IBM Cloud、Microsoft Azure、Oracle Cloud Infrastructure など、あらゆる主要クラウドプラットフォームから利用できます。

クラウドサービスプロバイダーは、開発ツールやトレーニング済みのニューラルネットワーク、開発者向けの技術サポートといった役立つリソースを提供して、ユーザーによるセットアップやトラブルシューティングを支援しています。企業が大量のトレーニング用データを収集する場合や、パイロットプログラムを開始する場合、多数の新規ユーザーを受け入れる場合でも、クラウドなら必要なコンピューティングリソースの変動に合わせてインフラストラクチャを容易に拡大できます。

コスト効率面でいえばほかにも、クラウドを研究やコンテナー化されたアプリケーション、実験、その他の時間的制約のないプロジェクトに使用する開発者は、余剰キャパシティを利用することでコストを最大 90% 削減できます。「スポットインスタンス」と呼ばれるこの利用方法は、他の顧客が使用していないクラウド上の GPU のスペースを有効利用して転貸するというものです。

クラウドを長期間利用するユーザーなら、クラウドプロバイダーがサービスを更新するたびに、最新のもっとも高性能なデータセンター GPU へとアップグレードできるという利点もあります。さらに多くの場合、プラットフォームを継続利用することで割引を受けられる特典が用意されています。

オンプレミスの GPU を選択するケース

大量のデータセットに基づく複雑な AI モデルを構築する場合、長期プロジェクトにかかる運用コストが嵩んでいくことがあります。その結果、開発者は反復作業やトレーニングを行うたびに運用コストが気になって、自由に実験しづらくなるかもしれません。オンプレミスの GPU システムなら、開発者は一度きりの決まった金額をかけるだけで、反復作業やテストに思う存分時間を費やすことができます。

データサイエンティスト、学生、企業がオンプレミスの GPU を使用すれば、累計で何時間システムを使用しているかを計算したり、特定の期間に何回その行程を実施できるかの配分計画を立てたりする必要がなくなります。

最初に新しい手法で失敗しても、異なるコードのバリエーションを試すのに追加投資が不要なので、開発者の創造力が後押しされます。オンプレミスシステムを使い込むほど、開発者の投資対効果が高まるというわけです。

強力なデスクトップ GPU から、ワークステーションやエンタープライズシステムまで、オンプレミスの AI マシンは幅広い選択肢で実現できます。価格やパフォーマンスのニーズに応じて、開発者は 1 基の NVIDIA GPU や 1 台のワークステーションから始め、最終的に AI スーパーコンピューターによるクラスターへと拡張することも可能です。

NVIDIA と VMware は、vComputeServer ソフトウェアと NVIDIA NGC コンテナーレジストリによって最新の仮想化されたデータセンターをサポートしています。これらは、組織が GPU サーバーを使って仮想環境における AI ワークロードの展開と管理を合理化するのに役立ちます。

ヘルスケア企業、人権団体、金融サービス業界のいずれもが、データ主権やプライバシーに関する厳しい基準を有しています。オンプレミスのディープラーニングシステムなら、AI の導入を容易にしながらも、規制に準拠し、サイバーセキュリティ上のリスクを最小限に抑えることができます。

ハイブリッドクラウドアーキテクチャを選択するケース

多くの企業にとって、1 つの方法を選択するだけでは十分とはいえません。両環境を組み合わせたハイブリッドクラウドコンピューティングであれば、オンプレミスシステムが持つセキュリティ面と管理面での利点が得られると同時に、サーバープロバイダーが提供するパブリッククラウドリソースを利用することもできます。

ハイブリッドクラウドは、リソースへの需要が高まり、オンプレミスリソースではまかないきれなくなった場合に利用できます。このようなやり方を「クラウドバースティング」と呼びます。またあるいは、もっとも機密性の高いデータの処理にオンプレミスのデータセンターを利用する一方で、計算集約的かつ動的なタスクはハイブリッドクラウドで実行するといったケースも考えられます。

多くのエンタープライズデータセンターが既に仮想化されていて、企業の既存のコンピューティングリソースと一貫したハイブリッドクラウドの展開を目指しています。NVIDIA は、VMware Cloud on AWS と協力し、AI、機械学習、データ分析のワークフローといった最新のエンタープライズアプリケーションに向けて、加速された GPU サービスを提供しています。

このサービスをハイブリッドクラウドユーザーが利用すれば、データセンターの GPU で加速される仮想サーバーと VMware Cloud との間で、AI ワークロードのシームレスなオーケストレーションおよびライブマイグレーションを実現できます。

両環境の長所を活かす: 開発者の AI ロードマップ

クラウド上の GPU とオンプレミスの GPU のいずれかを選択する作業は、企業や研究チームが AI プロジェクトを開始する前に行う一度きりの意思決定ではありません。開発者はプロジェクトの期間中、さまざまな時点でこの質問を自身に問いかけることになるはずです。

スタートアップ企業なら、初期のプロトタイピングをクラウド上で行った後、ディープラーニングモデルの開発とトレーニングを行うためにデスクトップシステムや GPU ワークステーションに切り替えてもよいでしょう。本番稼働のためにスケールを拡大し、使用するクラスターの数を顧客の需要に応じて変動させる場合には、再びクラウドに戻すことも可能です。さらに独自のグローバルインフラストラクチャを築き上げることになった段階で、GPU を使ったオンプレミスのデータセンターに投資することになるかもしれません。

機密性の極めて高い情報を処理するために AI モデルを構築している組織のように、最初から最後までずっとオンプレミスのマシンだけを使用する場合もあるはずです。「クラウドファースト」の企業となり、オンプレミスのデータセンターを 1 度も構築しないケースもあるでしょう。

組織にとって重要となる指針を 1 つ挙げるとすれば、それは「データが集まる場所でトレーニングを行う」ということです。企業のデータがクラウドサーバーに保管されるならクラウドで AI モデルを開発して、トレーニングのためにオンプレミスシステムにデータを動かすのを避けるのが、もっともコスト効率の高い方法と言えるかもしれません。一方、トレーニング用データセットがオンサイトのサーバーに保管されるなら、オンプレミスの GPU によるクラスターに投資することを検討するとよいでしょう。

チームが GPU を利用して AI 開発を加速させるためにどの方法を選んだとしても、NVIDIA では、SDK やコンテナー、オープンソースプロジェクトによってエンジニアの皆さまをサポートできるように各種開発者向けリソースを用意しています。また、NVIDIA Deep Learning Institute では、開発者、データサイエンティスト、研究者、学生を対象に、アクセラレーテッドコンピューティングツールの使用方法を学べるハンズオントレーニングを提供しています。

詳細については、NVIDIA のディープラーニングと AI に関するページをご覧ください。

この記事のメイン画像は MyGuysMoving.com から提供され、CC BY-SA 2.0 に基づいて Flickr からライセンス供与を受けたものです。