AT&T がデータサイエンスで新たな機会を創出

NVIDIA RAPIDS Accelerator for Apache Spark で何兆件ものレコード処理を高速化し、チームはネットワークの最適化、コスト削減しながら顧客満足度の向上を実現

AT&T の無線ネットワークは、アリューシャン列島からフロリダキーズ諸島までにわたる 1 億人以上の加入者をネット接続し、ビッグデータの海を生み出しています。

アベイダボルカー氏 (Abhay Dabholkar) が率いる研究グループは、その海を進むのに最適なツールに光を当てる、灯台のような役割を果たしています。

「AT&T の日々の業務に改善をもたらす新しいツールを試せるのは、楽しいことです。また、大変優れた最新ツールをスタッフに提供すると、スタッフたちの仕事満足度も高まるようです。」と語るダボルカー氏は、同社で 10 年以上勤務し、優れた経歴を誇る AI アーキテクトです。

この研究チームは先日、クラスター内のノードに作業を分散させるソフトウェアである NVIDIA RAPIDS Accelerator for Apache Spark を GPU 搭載サーバーでテストしました。

チームはそれによって 1 か月分のモバイルデータ (2兆8000億行にわたる情報) をわずか 5 時間で処理することができました。これは、以前実施されたテストと比べて 3.3 倍の速度に相当し、以前より 60% 低いコストで達成されました。

感動の瞬間

「感動の瞬間でした。CPU クラスターのときは、わずか 7 日分のデータを処理するのに 48 時間以上かかっていました。これまで、わたしたちはデータを所有していたものの、利用できていませんでした。処理に非常に多くの時間がかかっていたためです」と、ダボルカー氏は述べています。

具体的にいうと、このテストでベンチマーキングされたのは、いわゆる ETL (抽出、変換、書き出し処理) でした。新たな洞察を明らかにする AI モデルのトレーニングにデータを使えるよう、そのデータを事前にクリーンアップするものです。

「現在、ETL をはじめ、わたしたちが Spark で行っているあらゆる種類のバッチ処理ワークロードに GPU を利用できるのではないか考えており、特徴エンジニアリングから ETL や機械学習にまで作業を拡張するため、ほかの RAPIDS ライブラリも調査しています」とダボルカー氏は述べています。

現在、AT&T は ETL を CPU サーバーで実行しており、それからデータをトレーニングのために GPU サーバーへ移しています。単一の GPU パイプラインですべての作業を行えれば時間とコストの節約につながるだろうと、ダボルカー氏は付け加えています。

顧客に喜びを提供し、ネットワーク設計を加速

このような効率化は、幅広いユースケースに応用できる可能性があります。

例えば、ユーザーは最適な接続先を、より速やかに発見できるようになるかもしれません。そうなれば、顧客満足度の向上と、解約率の低下が見込めるでしょう。「さらに、わたしたちは自社の 5G タワーやアンテナのパラメーターを、より速やかに決定できるようになるかもしれません」と、ダボルカー氏は述べています。

AT&T の光ファイバーサービスのカバー範囲の中で、どの地域にサポート車両を展開すべきかを特定するには、時間のかかる地理空間演算が必要となりますが、それも RAPIDS と GPU によって加速できるかもしれません。そのように述べているのは、研究チームのシニアメンバーで、RAPIDS のテストを指揮した、クリスヴォー (Chris Vo) 氏です。

「わたしたちは 1 日に恐らく 300～400 TBの新たなデータを取得しているので、このテクノロジには大変なインパクトが期待できます。現在は 2、3 週間かかっているレポート生成が、数時間で済むようになるかもしれません」と、ダボルカー氏は述べています。