データの高速車線――NVLinkでアプリケーション・パフォーマンスを改善

投稿者: Geetika Gupta

毎朝の通勤が大渋滞したら、道路が4車線ではなく8車線だったらいいのにと思うのではないでしょうか。

渋滞はアプリケーションの世界にもあります。CPUとGPUのあいだにPCI Express(PCIe)というバスが置かれているのですが、ここの車線が狭くて数も少ないため、流れるデータが多くなると渋滞してしまうのです。

GPUは、大量のデータをすばやく処理することができますが、この力を有効活用するためには、膨大な量のデータを次から次へとGPUに供給してやらなければなりません。PCIeインターコネクトではこのペースについていけないことがよくあります。

このような「交通渋滞」を避けるため、NVIDIAでは、CPUとGPUやGPU同士をつなぐ高速インターコネクトを開発しました。NVLinkというものです。

これは世界初のGPU用高速インターコネクト・テクノロジです。NVIDIA NVLinkは、次世代HPCサーバにおけるデータの超高速道路として機能します。GPUやCPUのデータ交換速度がPCIeの5倍から12倍まで向上するのです。

動作原理は、次の動画をご覧ください

NVLinkを導入すると、アプリケーションの実行速度が2倍まで向上する場合があります。

昨年の発表以来、NVLinkは業界の注目を集めています。IBMは、POWER CPUにNVLinkを搭載する計画を発表しました。米国エネルギー省も、次のフラッグシップ・スーパーコンピュータにGPUとNVLinkを採用すると発表しました。

NVLinkは、Pascalアーキテクチャ採用のGPUに搭載される予定です。本日は、それに先立ち、NVLinkを使うとマルチGPU構成でデータの移動が高速となり、アプリケーション・パフォーマンスが高まることをご紹介しましょう。

FFTアルゴリズムは2倍以上に高速化

高速フーリエ変換(FFT)というのは、地震データ処理、信号処理、画像処理、偏微分方程式などに広く使われているアルゴリズムです。

その典型的な実行環境は、2個のGPUと1個のシングルCPUソケットをPCIeバスで結んだサーバです。このような環境では、FFTの作業負荷を分担するため、2個のGPUが膨大な量のデータをやりとりすることになります。この構成ではPCIeバスがボトルネックとなってしまい、GPU間のデータ交換速度が16GB/s以上に上がることはありません。

このGPUをNVLinkで結ぶと、データの交換速度が80GB/sまで上がります。5倍もの速度になるのです。

FFTを中心とする処理については、NVLinkを採用すると、PCIeベースのシステムに比べて実行速度が2倍以上に向上する可能性があります。

AMBERは最大で50%高速化

AMBERというのは分子動力学のアプリケーションで、がん細胞などの物質が原子レベルでどのような挙動を示すのかを研究する際に利用されています。このAMBERにGPUを組み合わせると、実行時間を数週間から数日へ短縮しつつ、分子構造のシミュレーション精度を高めることができます。

AMBERなどのアプリケーションには高密度のサーバが使われることが多く、シングルCPUソケット1個にGPUが4個接続されている構成も珍しくありません。

AMBERでは複数のGPUでシミュレーションを分担するため、データを交換し続ける必要があります。PCIeでは苦しい状況です。4個のGPUをNVLinkで結べば、AMBERの実行速度は30%から50%も高速になります。

詳しく知りたい方は、NVLinkのホワイトペーパをダウンロードしてください。