NVIDIA RAPIDS Accelerator for Apache Spark で何兆件ものレコード処理を高速化し、チームはネットワークの最適化、コスト削減しながら顧客満足度の向上を実現
AT&T の無線ネットワークは、アリューシャン列島からフロリダキーズ諸島までにわたる 1 億人以上の加入者をネット接続し、ビッグデータの海を生み出しています。
アベイ ダボルカー氏 (Abhay Dabholkar) が率いる研究グループは、その海を進むのに最適なツールに光を当てる、灯台のような役割を果たしています。
「AT&T の日々の業務に改善をもたらす新しいツールを試せるのは、楽しいことです。また、大変優れた最新ツールをスタッフに提供すると、スタッフたちの仕事満足度も高まるようです。」と語るダボルカー氏は、同社で 10 年以上勤務し、優れた経歴を誇る AI アーキテクトです。
この研究チームは先日、クラスター内のノードに作業を分散させるソフトウェアである NVIDIA RAPIDS Accelerator for Apache Spark を GPU 搭載サーバーでテストしました。
チームはそれによって 1 か月分のモバイル データ (2兆8000億行にわたる情報) をわずか 5 時間で処理することができました。これは、以前実施されたテストと比べて 3.3 倍の速度に相当し、以前より 60% 低いコストで達成されました。
感動の瞬間
「感動の瞬間でした。CPU クラスターのときは、わずか 7 日分のデータを処理するのに 48 時間以上かかっていました。これまで、わたしたちはデータを所有していたものの、利用できていませんでした。処理に非常に多くの時間がかかっていたためです」と、ダボルカー氏は述べています。
具体的にいうと、このテストでベンチマーキングされたのは、いわゆる ETL (抽出、変換、書き出し処理) でした。新たな洞察を明らかにする AI モデルのトレーニングにデータを使えるよう、そのデータを事前にクリーンアップするものです。
「現在、ETL をはじめ、わたしたちが Spark で行っているあらゆる種類のバッチ処理ワークロードに GPU を利用できるのではないか考えており、特徴エンジニアリングから ETL や機械学習にまで作業を拡張するため、ほかの RAPIDS ライブラリも調査しています」とダボルカー氏は述べています。
現在、AT&T は ETL を CPU サーバーで実行しており、それからデータをトレーニングのために GPU サーバーへ移しています。単一の GPU パイプラインですべての作業を行えれば時間とコストの節約につながるだろうと、ダボルカー氏は付け加えています。
顧客に喜びを提供し、ネットワーク設計を加速
このような効率化は、幅広いユースケースに応用できる可能性があります。
例えば、ユーザーは最適な接続先を、より速やかに発見できるようになるかもしれません。そうなれば、顧客満足度の向上と、解約率の低下が見込めるでしょう。「さらに、わたしたちは自社の 5G タワーやアンテナのパラメーターを、より速やかに決定できるようになるかもしれません」と、ダボルカー氏は述べています。
AT&T の光ファイバー サービスのカバー範囲の中で、どの地域にサポート車両を展開すべきかを特定するには、時間のかかる地理空間演算が必要となりますが、それも RAPIDS と GPU によって加速できるかもしれません。そのように述べているのは、研究チームのシニア メンバーで、RAPIDS のテストを指揮した、クリス ヴォー (Chris Vo) 氏です。
「わたしたちは 1 日に恐らく 300~400 TBの新たなデータを取得しているので、このテクノロジには大変なインパクトが期待できます。現在は 2、3 週間かかっているレポート生成が、数時間で済むようになるかもしれません」と、ダボルカー氏は述べています。
3 つのユースケース、そしてその先へ
研究者たちは、研究結果を AT&T のデータ プラットフォーム チームのメンバーと共有しています。
「作業に時間がかかりすぎていて、大量のデータを持っているなら、GPU の利用を勧めています。Spark なら、CPU 上でも GPU 上でも同一のコードを実行できます」とダボルカー氏は述べています。
これまでのところ、別々のチームが別個の 3 つのユースケースで独自の効果を得ていますが、ほかのチームも自分たちのワークロードに関わるテストを実行する計画を立てています。
ダボルカー氏は、将来的には種々のビジネス ユニットがそれぞれのテスト結果を本番環境システムに応用できるだろうと期待しています。
「わたしたちはあらゆる種類のデータセットを持ち、ペタバイトのデータを毎日処理している通信企業なので、テスト結果の応用は効率性の大幅な向上につながる可能性があります」と、同氏は述べています。
米国の内国歳入庁をはじめとするその他のユーザーも、AT&T と同様の取り組みを行っています。Fortune 500 企業の 80% を含む 13,000 社以上の企業で Apache Spark が利用されていることを考えると、この取り組みについては多くの企業の追随が予想されます。
GTC に無料登録して、AT&T のクリス ヴォー氏が自身の仕事について語る講演を視聴し、これらのセッションでデータ サイエンスについて詳しく学びましょう。NVIDIA の CEO であるジェンスン フアン (Jensen Huang) の基調講演もご視聴いただけます。