日本原子力研究開発機構、NVIDIA DGX-2の活用で汚染物質拡散シミュレーションの高速化を実現

投稿者: NVIDIA Japan

国内初のHPC分野におけるNVIDIA DGX-2の導入

日本原子力研究開発機構(JAEA)では、現在、原子力施設周辺や都市域の数km四方の局所領域を対象とする汚染物質拡散予測システムの開発を進めています。このシステムは、緊急時に利用することを想定しているため、実際に事象が発展する時間(実時間)よりも早い時間でシミュレーションすることが重要です。

同予測シミュレーションを実時間よりも早く行うには、高い演算性能が必要であることから、これまではスーパーコンピュータが用いられてきました。しかし、複数のノードにまたがるスーパーコンピュータを利用する場合、並列計算において計算領域を分割する際にデータ転送が発生し、速度が低下することから、より多くのGPUが必要になる傾向がありました。例えば、これまでのスーパーコンピュータで実時間より早い汚染物質拡散シミュレーションを行うには、1ノードあたり4基のGPUが搭載されたシステムで36基のGPUが必要でしたが、9台のノード間の通信速度がボトルネックとなり、これ以上の速度向上を実現することが困難でした。

そこで日本原子力研究開発機構は、NVIDIA DGX-2を導入しました。NVIDIA DGX-2を使用することで、スーパーコンピュータで複数ノードにまたがって計算していた実時間シミュレーションを、たった 1 台で実行できるようになります。NVIDIA DGX-2はこれまでディープラーニングの分野での導入例は多数ありましたが、HPC分野での導入は国内初の事例となります。

NVIDIA DGX-2は、16基のNVIDIA Tesla V100 32GB GPUと、他のトップドロワーコンポーネント(2基の24コアXeon CPU、1.5TBのDDR4 DRAMメモリ、および30TBのNVMeストレージ)を単一システムに搭載し、2petaFLOPSのパフォーマンスを実現します。

NVIDIA DGX-2 に搭載された 16基の V100 GPUは、NVLinkクロスバーネットワークを提供するGPUブリッジ デバイスである NVIDIA NVSwitch によって相互接続されています。NVSwitch は、18個のNVLinkポートを備え、1ポートあたり51.5GB/秒、合計928GB/秒の双方向帯域幅でノンブロッキング 転送を行います。NVIDIA DGX-2 の各 V100 GPU は、300GB/秒の双方向帯域幅で接続されているので、すべての GPUが他の GPU のメモリに自由にアクセスすることができ、あたかも512GBのメモリを持つ「ひとつの巨大なGPU」として利用することができます。

国立研究開発法人日本原子力研究開発機構 システム計算科学センター 小野寺直幸氏は以下のように述べています。「これまでの実績からNVIDIAのGPUについては着目をしていました。NVIDIA DGX-2の導入によって通信速度が飛躍的に向上したことで、これまで10台程度のノードが必要だった実時間より早い汚染物質拡散シミュレーションを1台で実現できるようになりました。1台のサーバーであれば各拠点への設置も可能で、観測データとの連携等、より進んだ研究が期待できます。」

首都圏の4km×4km地域のリアルタイム汚染物質拡散シミュレーション

今後、日本原子力研究開発機構では、シミュレーション結果を学習データにして、ディープラーニングを用いた推論を併用するなど、シミュレーションとAIを融合した使い方も想定しています。これによって、さらなる高精度予測が可能となり、緊急時においてより迅速かつ的確な対応に貢献することが期待されます。