科学者たちが、RTX 搭載の Z by HP データ サイエンス ワークステーションによって、CPU であれば何年もかかるようなデータ分析と計算を 1 週間未満に高速化
アメリカ航空宇宙局 (NASA) が Quadro RTX GPU を使用してデータ分析に日の光を当てています。
NASA のソーラー ダイナミクス オブザーバトリー (SDO: 太陽観測衛星) は、科学者や研究者がさまざまな種類の太陽活動や地球上の生命に対するその影響について洞察を得るのに役立つように、太陽の画像を収集しています。
このデータは研究者コミュニティにとって価値ある資産ですが、集められた画像は 18 ペタバイトを超えており、その情報を分析するのは大きな挑戦です。
しかし Quadro RTX を搭載した Z by HP データ サイエンス ワークステーションによって、NASA のチームは CPU を使用した場合よりも最大 150 倍速くデータのソートや、画像の分析を簡単に行うことができています。
NASA のビッグ データへの挑戦
観測所は 1.3 秒ごとに太陽の画像を撮影してデータを収集しています。研究者たちは、写真から異常なピクセルなどのエラーを取り除き、日々増え続ける画像をアーカイブに保存するアルゴリズムを開発しました。
このアルゴリズムは非常に正確ですが、画像が 20 ペタバイト近くあるため、何十億ものピクセルが間違ってエラーと分類されています。そのため NASA のチームは、合計で約 1,000 億の個別のエラー検出を含む 1 億 5,000 万ものエラーファイルを精査し、正常なピクセルと異常なピクセルの選別とラベル付けをする方法を見つける必要がありました。
従来のコンピューティングでは、これはほぼ不可能でした。CPU を使うと、結果が出るまでには数年はかかると思われるためです。彼らが作成できる最高のマルチスレッド CPU アルゴリズムを使ったとしても、すべてのデータの計算と分析には 1 年ほどかかるでしょう。
NASA ゴダード宇宙飛行センターの太陽天文学者であるラファエル アティ (Raphael Attie) 氏は次のように述べています。「科学者にとって、1 年はまだ十分な時間とは言えません。私たちは得られた結果を検討し、イテレーションを行いたいからです。計算にかかるのが 1 年だけだとしても、私たちが具体的な結果を出すまでに 10 年かかるかもしれません」
NASA のチームはこれよりはるかに短い期間で結果を出す必要があったため、NVIDIA GPU を使った並列処理能力に注目し始めました。
ビッグ データの大きなソリューション
NASA ではスーパーコンピューティング リソースが厳しく制限されています。研究者は、どれくらいの計算リソ ースを必要とし、どのぐらいの期間使用する必要があるのかについて、詳細を提出しなければなりません。しかし、大量のデータを使って実験をするにはどれくらいの計算リソースが必要かチームにもわからない場合、これは困難になります。
しかし 2 基の Quadro RTX 8000 GPU を搭載した Z by HP データ サイエンス ワークステーションを使うことで、NASA の研究者はスーパーコンピューティング リソースを自分のデスクで利用することができました。研究者たちはビッグ データ分析技術と NVIDIA GPU の力を完全に解放するために NVIDIA のアクセラレ ーテッド コンピューティング ライブラリを使って、プロジェクトの調査を始めました。
データ サイエンス ワークステーションによって、チームは画像を分析して 1 週間以内に結果を出すことができました。
NASA の天体物理学研究者であるマイケル カーク (Michael Kirk) 氏は次のように述べています。「デ ータ サイエンス ワークステーションは私たちの可能性の領域を完全に変えました。このような計算は以前なら想像もつきませんでしたが、今では私たちが可能と考えていたよりも 10~150 倍も速く計算できます」
NASA のチームは太陽の秘密を知るために、AI、機械学習、データ分析を活用した幅広い研究を行っています。そのデータ サイエンス ワークフローのほとんどは Python をベースにしており、大量のデータ処理には TensorFlow、Dask、CuPy などのアプリを、統計的調査には pandas、RAPIDS、CuDF を使い、2D、 3D のさまざまなビジュアライゼーション ツールも使用しています。
データ サイエンス ワークステーションによって、チームは GPU の力を利用して分析ワークフローを強化し、研究者はより迅速に結果を得るために計算の調査とイテレーションを行うことができます。
最新のデータを選別し分析するプロジェクトが完了すれば、NASA のチームの次のステップは、この情報を使って当初正常と判断された他のピクセルを分析し、それが本当に正常かどうかを確認して、データ セット全体を検証できるようにすることです。
GPU のためにスペースを変える
AI やビッグ データ分析において、プロジェクトはクラウド環境の応答性の悪いワークフローの影響を大きく受ける可能性があります。このような中断は、長期的には勢いや、生産性、モチベーションを損ないます。そのためアティエ氏は、快適なプロトタイピングのためには、データ処理のサブセットを格納できるだけの十分なメモリを持つ GPU 搭載のワークステーションまたはノート PC をローカルで用意することを勧めています。
アティエ氏は次のように述べています。「応答性に優れたワークフローに必要な条件は、GPU デバイスが入力データに素早くアクセスできることだと思います。GPU デバイスと同じマシンにデータをローカルに置くことができない場合、ネットワークは非常に速くて復元力の高いものでなければなりません。AI アプリケーションはデータへの高速アクセスを必要とする場合が多いからです」
アティエ氏とカーク氏のプロジェクトの成果は、一般出版物や専門雑誌を通じて共有されています。セミナ ーやカンファレンスでは、両氏は同僚とディスカッションをし、特定のフレームワークやカスタマイズされたコードでどのようにデータを取得しているかについてプレゼンテーションを行う予定です。そしてより多くの人が在宅勤務をするようになるにつれ、NASA のチームもますますリモート ツールを使いこなし、他の人々と連絡を取り合って最新プロジェクトの成果を共有するようになっています。
この研究について、こちらの NASA のウェビナーでより深く学びましょう。
NVIDIA データ サイエンス ワークステーションについて、詳細をご覧ください。
メイン画像提供: NASA。この画像は、2012 年 5 月 16 日に SDO から送られた太陽の写真です。