NVIDIA が世界で一番人気のデータ分析プラットフォームを加速

投稿者: Erik Pounds

NVIDIA の GPU アクセラレーションにApache Spark 3.0 が対応

世界で最も普及しているデータ分析アプリケーションである Apache Spark は、Spark 3.0 の一般向けリリースを通じて、革新的な GPU アクセラレーションを 50 万人以上のユーザーに提供することとなりました。

Databricks が提供しているクラウドベースのエンタープライズ向け Spark プラットフォームは、毎日 100 万以上の仮想マシン上で稼働しています。Spark+AI Summit において本日、Databricks は Spark 3.0 のスケジュールにあわせて、コミュニティ メンバーおよび NVIDIAと共同開発した機械学習用の Databricks Runtime 7.0 が GPU アクセラレーションに対応することを発表しました。

Google Cloud は先日、Dataproc のイメージバージョン 2.0 上でSpark 3.0 のプレビュー版が利用可能となったことを発表しました。これは、NVIDIA の強力な GPU アクセラレーションが注目を集め、オープンソース コミュニティの協力を得てついに実現したものです。NVIDIA では、7 月 16 日に、データサイエンティストに向け、この胸躍る新機能を体験していただけるよう、Google Cloud とともにウェビナーを主催することにしました。

さらに、ETL (データの抽出、変換、ロード) およびデータ転送を加速し、コードを変更することなく分析パフォーマンスをエンドツーエンドで強化する、新しいオープンソースである RAPIDS Accelerator for Apache Spark も利用可能になりました。

Spark の性能が速くなるということは、より速く洞察が得られるというだけでなく、より少ないインフラストラクチャでワークロードを完了できるため、コストも削減できるということです。

加速するデータ分析:科学計算で AI が意味を持つようになる

Spark が続々とニュースになるのには理由があります。

組織が刻々と変化する機会や起こりうる脅威に対応するにはデータが欠かせません。しかしそのためには、データに隠された決定的な手がかりを読み解く必要があります。

組織では、顧客がウェブサイトをクリックしたり、電話によるカスタマーサポートを提供したり、あるいは売上日報を作成するたびに、膨大な情報を追加しています。AIの普及にともない、企業がトレンドをキャッチし、変化する市場の一歩先を行くためには、データ分析がますます重要なものになってきています。

つい最近まで、データ分析のために過去のデータや洞察を集めるには小規模なデータセットが必要でした。これらのデータは高度に構築されたデータ上で ETL を通じて分析され、従来通りのデータウェアハウスに保存されていました。

AI をもとにした予測や推奨を行うデータサイエンティストにとって、ETL がボトルネックになることはよくあることです。データ サイエンティストの仕事時間の 70~90% を占めると推測される ETL は、ワークフローを停滞させ、仕事の中でもとりわけ平凡な作業に、引く手あまたの人材を拘束しています。

データ サイエンティストは、ETL が終わるのを待つ間、より良いビジネス インテリジェンスを得るためにモデルを再学習させているわけではありません。従来の CPU インフラストラクチャでは、これらのワークロードを調整したくても効率的に拡張することができず、コストが膨らむ原因になります。

GPU アクセラレーションに対応した Spark を使えば、ETL はもはや問題ではありません。ヘルスケア、エンターテインメント、エネルギー、金融、小売、その他多くの業界で、データ分析による洞察の獲得をコスト効率よく加速することができます。

データ分析で力を発揮する並列処理

GPU の並列処理により、コンピュータが複数の命令を同時に処理することができます。データセンターでは、これらの機能が大きく拡張され、複雑なデータ分析プロジェクトをサポートします。より多くの組織が AI や機械学習ツールを活用するようになったことで、これらのワークロードを圧迫する大量のデータを扱う分析や ETL パイプラインを加速するために、並列処理が重要になってきました。

来シーズンに向けた在庫を予想しようとしている小売業者を想定してみましょう。去年のデータに加えてここしばらくの売上データも調べる必要があるかもしれません。経験豊富なデータ サイエンティストなら気象モデルも分析に取り入れ、雨の多い時期や乾燥する時期が売上に与える影響についても考えるでしょう。人々の感情面の分析データも統合して、今年はどんなトレンドが人気になるかを評価することもできます。

分析するデータのソースは多く、さまざまな変数が売上にあたえうる影響をモデル化するにはスピードが肝心です。そんなときこそ分析を機械学習にまかせるべきであり、それには GPU が必須となります。

RAPIDS アクセラレータが Apache Spark 3.0 をスーパーチャージ

データ サイエンティストが従来の分析方法から、市場の複雑な需要をより良くモデル化できるAIアプリケーションに移行するに従って、CPU ベースの処理ではスピードかコストのどちらかを犠牲にするしかなくなりました。ますます分析にAI が採用されるようになったことで、データを迅速かつコスト効率良く処理するための、GPU を使った新たなフレームワークへの需要が生まれています。

この新しい RAPIDS Accelerator for Apache Spark は、Spark の分散型コンピューティング フレームワークと強力な RAPIDS cuDF ライブラリを接続し、Spark DataFrame および Spark SQL オペレーションの GPU アクセラレーションを実現します。また RAPIDS Accelerator は、Spark ノード間でデータを移動させる最速のパスを見つけて Spark Shuffle オペレーションも加速させます。

RAPIDS Accelerator for Apache Spark にアクセスするには、GitHubページ をご覧ください。

NVIDIA の YouTube デモで GPU での Spark 3.0 スプリントをご覧いただけます。

Spark 3.0 のリリースに関するより詳しい情報はApache Software Foundationのサイトをご覧ください。.

Spark 3.0 についてもっと知りたいデータサイエンティスト向けには、free Spark 3.0 e-bookを公開しております。