大気をキレイに: NASA の研究者チームが NVIDIA RAPIDS を利用して汚染予測を高速化

投稿者: Isha Salian

このたび米国ワシントンで行われた NVIDIA の GPU テクノロジ カンファレンス (GTC DC) の講演で、NASA の研究員であるクリストフ ケラー (Christoph Keller) 氏は、「軽視されすぎている問題の 1 つに、大気質がある」と指摘しました。

10 人中 9 人が汚染された空気を吸い込み、屋内外の空気汚染を原因とする死亡者の数は年間数百万人にのぼるといいます。また、大気環境の悪化が穀物収穫量の減少にもつながっており、農業生産高において年間数十億ドル相当の損失が発生しているとのことです。

そこで NASA の研究者チームは、大気質をより的確に把握し予測できるようにするため、世界の大気汚染をリアルタイムで追跡する機械学習モデルの開発を進めています。またこのモデルは政府機関や個人が決定を下すのに役立つ最大 5 日前の予測結果を提供します。

ケラー氏のチームは、NVIDIA V100 Tensor コア GPUNVIDIA RAPIDS データ サイエンス ソフトウェア ライブラリを利用して、その機械学習アルゴリズムの高速化を図っています。トレーニングが行われたモデルは、NASA の気候シミュレーション センターのデータを使用して大気汚染情報のモデリングを行い、既存の全球システム モデルに接続して、世界規模の大気質シミュレーションをこれまでの半分の時間で実行します。

NVIDIA DGX システムの RAPIDS でアルゴリズムが風のように動く

NASA やその他の宇宙機関による衛星観測では、大気質の詳細な測定を含む、地球で起きている事象について大量のデータを収集しています。

しかしこのデータが NASA の世界規模の大気質モデルに入力されても、関連する科学技術が複雑すぎるため、リアルタイムの洞察が得られるほど十分な速さで処理できません。GPU によって高速化された機械学習ならその状況を変えることができ、科学者はよりリアルタイムで詳細な大気質マップを利用できるようになります。

「NASA の世界モデルはテラバイトのデータを素早く生成します。私たちは、これらの巨大なデータセットで機械学習モデルをトレーニングしたいと考えています。」と、NASA のゴダード宇宙飛行センターの一員であるケラー氏はインタビューで答えています。「しかし、通常のソフトウェアやハードウェアではすぐに限界に達してしまいます。そこで目を向けたのが GPU と RAPIDS ソフトウェアでした。」

NVIDIA の開発者チームはケラー氏と協力し、cuDF と XGBoost ソフトウェア ライブラリを使用して同氏の機械学習モデルのトレーニングを加速させることを目指しました。NVIDIA DGX-1 を含む 3 つの GPU 搭載システム上で実行することで、チームはほぼ 1 日がかりだったトレーニング時間を数秒にまで短縮し、反復処理を高速化することに成功しました。

ケラー氏は、こうも語っています。「以前は一度ボタンを押してから結果が得られるまで 6 ~ 7 時間かかり、ほんのわずかな微調整でさえ、実行し直してまた待たなければなりませんでした。しかし、トレーニング サイクルの短縮により、モデル開発の状況が一変しました。」

科学者チームによる大気質予測は NASA から公開されていますが、チームは今後それが世界中のアプリケーション開発者や非営利団体、都市に利用されることも期待しています。また、米国の環境保護庁、国務省、陸軍公衆衛生局といった政府機関も、大気質を追跡して危険な大気汚染レベルに達した場合に即座に注意喚起するための手段として、このデータに関心を寄せています。

これらの組織は、NASA のデータと予測を利用して、大気質の指数データを山火事や産業活動、気象、交通渋滞などの汚染事例とからめながら、特定の日に大気環境が悪化する理由を国民に説明するためのツールを開発できるでしょう。また政府機関が予測を利用すれば、産業用発電所など大気汚染の発生源の影響を定量化することもできるはずです。