SC18 では、新しいマルチノード コンテナー、Singularity との互換性、そして NGC 対応プログラムが紹介され、データ サイエンス、AI、HPC の間口が今まで以上に広がる。
好循環が起きていると言えるでしょう。GPU によって高速化されるデータ サイエンスと HPC のワークロードの数は、ますます増えています。これにより、今年のゴードン ベル賞のファイナリスト 6 組のうち 5 組のような例を始めとして、科学における幅広いブレイクスルーが起きています。このような進展があったために、マインドシェアが高まっており、今週ダラスで開催されている SC18 の多くのセッション、デモ、新製品紹介でも、GPU が大々的にフィーチャーされています。
NVIDIA は、NGC コンテナー レジストリからソフトウェアを展開しやすくすることで、このループを完成させます。このレジストリのあらかじめ統合され、最適化されているコンテナーは、業界標準のソフトウェアに向けられた最新の機能強化と性能向上を、NVIDIA GPU にもたらします。レジストリが拡大するほど (この 1 年でコンテナーの数は 2 倍になりました)、ユーザーにとっては、GPU コンピューティングの活用方法がさらに増えます。
より多くのアプリケーション、新しいマルチノード コンテナー、Singularity
NGC コンテナー レジストリは、現在、ディープラーニング、HPC、および HPC の可視化のために、合計 41 (昨年の 18 から増加) のフレームワークとアプリケーションを提供しています。最近では CHROMA、Matlab、MILC、ParaView、RAPIDS、VMD などが追加されました。また、それらの機能を向上させ、デプロイも容易にしました。
NVIDIA は SC18 で、マルチノード HPC および可視化用の新しいコンテナーを発表しました。これによりスーパーコンピューターのユーザーは、大規模なクラスターでワークロードを実行できるようになります。
大規模なデプロイメントでは、複数のサーバー間でジョブを実行するために、メッセージ パッシング インターフェイス (MPI) というテクノロジをよく利用します。しかし、MPI を使うアプリケーション コンテナーを構築するのは困難です。なぜなら、HPC システムを定義する変数の数が非常に多いためです (スケジューラー、ネットワーキング スタック、MPI、さまざまなドライバー バージョン)。
NGC コンテナー レジストリは、マルチノードのデプロイメントを支援する 5 つのコンテナーを最初に展開することで、上記の手順を簡素化します。その結果、それぞれに多くの GPU を載せた複数のノード上で膨大な計算ワークロードを実行するのが、はるかに容易になります。
また NGC コンテナーは Singularity においてネイティブで使えるようになったため、デプロイがさらに簡単になりました。Singularity とは、スーパーコンピューティングの現場で広く取り入れられているコンテナー技術です。
新しい NGC 対応プログラム
HPC アプリケーションを実行できる機会を拡大するため、NVIDIA は新しい NGC 対応プログラムも発表しました。これにより、NVIDIA GPU を搭載したパワフルなシステムのユーザーは、安心してデプロイできるようになります。サーバー企業から提供される最初の NGC 対応システムには、以下が含まれます。
- ATOS BullSequana X1125
- Cisco UCS C480ML
- Cray CS Storm NX
- Dell EMC PowerEdge C4140
- HPE Apollo 6500
- Supermicro SYS-4029GP-TVRT
NVIDIA Quadro GPU を搭載した NGC 対応ワークステーションは、研究者がディープラーニングのプロジェクトを迅速に構築し、トレーニングし、進化させるために必要なパフォーマンスと柔軟性を、プラットフォームとして提供します。ワークステーション企業から提供される NGC 対応システムには、以下が含まれます。
- HPI Z8
- Lenovo ThinkStation P920
トップ ベンダーが提供する NGC 対応システムと NGC コンテナーとの組み合わせにより、ユーザーは、コンテナー化された反復可能な方法を用いて、開発時から本番にかけて HPC アプリケーションを展開することができます。
NGC コンテナー レジストリが提供するコンテナーは、さらに Amazon EC2、Google Cloud Platform、Microsoft Azure、Oracle Cloud Infrastructure、NVIDIA DGX Systems を含む幅広いプラットフォーム、そして選りすぐりの GPU である NVIDIA TITAN および Quadro GPU で動作します。
![](https://blogs.nvidia.co.jp/wp-content/uploads/2018/11/12-ngc-container-registry.png)
プレミア スーパーコンピューティング センターでもデプロイされる NGC コンテナー
NGC コンテナー レジストリは、大企業から個人研究者に至るまで、多種多様な産業や分野のユーザーに利用されています。その中には、米国トップクラスの教育/研究機関であるクレムソン大学とアリゾナ大学も含まれています。
クレムソンの Palmetto クラスターの研究ファシリテーターには、同じアプリケーションの複数のバージョンをサポートしてほしいという要望が絶えずきていました。これらの異なるバージョンをすべてインストールし、アップグレードし、保守するのは、多大な時間とリソースを要する作業でした。さまざまなバージョンをすべて保守するため、サポート スタッフは身動きが取れなくなり、ユーザーの生産性も低下しました。
クレムソンのチームは、Palmetto のシステム上で、HPC およびディープラーニング用のコンテナー (NGC コンテナー レジストリから入手した GROMACS や TensorFlow) のテストに成功しました。現在では、ユーザーが自分のプロジェクトに NGC コンテナーを利用することが推奨されています。また、コンテナーは Singularity によるデプロイメントで実行されているため、システム全体でサポートしやすくなっています。NGC コンテナーによって、クレムソンの Palmetto ユーザーは、他の研究者の邪魔になったり、デプロイのためにシステム管理者に頼ったりすることなく、希望するバージョンのアプリケーションを実行できるようになりました。
アリゾナ大学では、ディープラーニング フレームワーク TensorFlow の新バージョンが出るたび、Ocelote クラスターのシステム管理者のところへ更新の要望が殺到していました。HPC システムに TensorFlow をインストールする作業は複雑で、2 日かかる場合もあるため、人数が少ない作業チームはリソースの問題を抱えることとなり、それがしばしばユーザーの不満にもつながっていました。
アリゾナ大学で HPC システムの管理責任者を務めるクリス レイディ (Chris Reidy) 氏は、次のように述べています。「当大学のクラスター環境は、どうしても、ディープラーニングのワークフローの要求について行くのに十分な速度で更新することができていません。そこで NVIDIA GPU に多額の投資を行い、その投資を NGC コンテナーで活用することにしました。私たちは NAMD のような従来型の分子動力学用コードから、機械学習やディープラーニングに至るまでのさまざまな分野に多大な関心を持っていますが、NGC コンテナーは、最適化された完全にテスト済みのソフトウェア スタックを用いて構築されており、研究を素早く始められるようにしてくれます。」
レイディ氏は、大学のクラスター上の Singularity で、NGC から入手した HPC 用、HPC の可視化用、およびディープラーニング用のさまざまなコンテナーをテストしました。NGC のドキュメントの指示に従って、NGC コンテナーを容易に立ち上げ、実行することができました。今では、これらのアプリケーションの実行には、このやり方が推奨されるようになりました。
NGC コンテナーは、無償でダウンロードすることができます。利用を開始するには、NGC コンテナー レジストリにアクセスしてください。