最新のアクセラレータとネットワークが高度なシミュレーション、AI、量子コンピューティング、データ分析などのパフォーマンスを向上
アクセラレーテッド コンピューティングと AI の進化が世界の次なる大規模なブレイクスルーを牽引する中、量子コンピューティング、創薬、核融合エネルギーなど、人類に恩恵をもたらすさまざまな分野において、科学コンピューティングと物理ベースのシミュレーションが大きな進展を遂げようとしています。
NVIDIA は、3 月の GTC にて、NVIDIA Blackwell プラットフォームを発表しました。このプラットフォームは、兆単位のパラメーターを持つ LLM (大規模言語モデル) による生成 AI を、NVIDIA Hopper アーキテクチャの最小 1/25 のコストとエネルギー使用量で実現します。
Blackwell は、AI ワークロードに強力な影響を及ぼすだけでなく、その技術的能力により、従来の数値シミュレーションを含む、あらゆる種類の科学コンピューティング アプリケーションにわたって発見をもたらすのに貢献します。
アクセラレーテッド コンピューティングと AI は、エネルギー コストを削減することで、サステナブルなコンピューティングを促進します。多くの科学コンピューティング アプリケーションが既にその恩恵を受けており、従来の CPU ベースのシステムなどと比べて、気象シミュレーションを 1/200 のコスト、1/300 のエネルギーで行い、デジタル ツイン シミュレーションを 1/65 のコスト、1/58 のエネルギー使用量で行うことが可能になっています。
Blackwell による科学コンピューティング シミュレーションの強化
科学コンピューティングおよび物理ベースのシミュレーションでは、多くの場合、倍精度形式または FP64 (浮動小数点) として知られるデータ形式を利用して、問題を解決します。Blackwell GPU は、Hopper よりも 30% 高い FP64 と FP32 の FMA (融合積和演算) のパフォーマンスを実現します。
物理ベースのシミュレーションは、製品の設計と開発では重要な役割を果たします。飛行機や電車から、橋、シリコン チップ、医薬品に至るまで、シミュレーションで製品をテストし、改善することで、研究者と開発者は、数十億ドルのコスト削減を実現しています。
現在、ASIC (特定用途向け集積回路) は、主に CPU を使用して設計されており、電圧や電流を特定するアナログ分析を含む、長くて複雑なワークフローを経ています。
しかし、その状況が変わってきています。Cadence SpectreX シミュレーターは、アナログ回路設計ソルバーの一例です。SpectreX 回路シミュレーションは、Blackwell GPU と Grace CPU を組み合わせた GB200 Grace Blackwell Superchip で、従来の CPU よりも 13 倍速く実行されると予想されています。
また、GPU アクセラレーテッドの CFD (数値流体力学) が主要なツールになっており、エンジニアや機器設計者は、これを利用して、設計の挙動を予測しています。Cadence Fidelity は、GB200システム上で、従来の CPU を利用したシステムよりも 22 倍速く CFD シミュレーションを実行することが予想されています。並列スケーラビリティと GB200 NVL72 ラックあたり 30 TB のメモリにより、従来では不可能だったフローの詳細のキャプチャーが可能となります。
別の用途として、Cadence Reality のデジタル ツイン ソフトウェアを使用して、サーバー、冷却システム、電源などのすべての構成設備を含む、物理的なデータセンターの仮想レプリカを構築できます。こうした仮想モデルにより、エンジニアは、実世界に実装する前にさまざまな構成やシナリオをテストし、時間とコストを節約できます。
Cadence Reality の「魔法」は、熱、空気の流れ、電力の使用がデータセンターにどのような影響を及ぼすかシミュレートできる物理ベースのアルゴリズムによるものです。これにより、エンジニアやデータセンターの運営者は、キャパシティをより効果的に管理し、運用に関する潜在的な問題を予測し、情報に基づいて意思決定を行い、データセンターのレイアウトや運用を最適化することで、効率性と容量の使用効率を向上できます。Blackwell GPU を使用すると、CPU と比べて、これらのシミュレーションを最大 30 倍速く実行して、スケジュールを加速させ、エネルギー効率を向上できる見込みです。
科学コンピューティングにおける AI
新しい Blackwell のアクセラレータとネットワークは、高度なシミュレーションのパフォーマンスを大幅に向上させます。
NVIDIA GB200 は、HPC (ハイ パフォーマンス コンピューティング) の新時代を切り開きます。そのアーキテクチャは、LLM の推論ワークロードを高速化するために最適化された第 2 世代の Transformer Engine を特長としています。
これにより、1.8 兆個のパラメーターを持つ GPT-MoE (Generative Pretrained Transformer-Mixture of Experts) モデルなどのリソース集約型アプリケーションで、H100 世代と比較して 30 倍の高速化が実現し、HPC の新たな可能性を切り開きます。また、LLM による大量のデータの処理と解読を可能にすることで、HPC アプリケーションは科学的発見を加速できる貴重なインサイトにより迅速に到達できます。
Sandia 国立研究所は、並列プログラミング用の LLM コパイロットを構築しています。従来の AI は、基本的な逐次コンピューティング コードを効率的に生成できますが、HPC アプリケーション用の並列コンピューティング コードの生成に関して、LLM では不十分な可能性があります。Sandia の研究者は、世界最強のスーパーコンピューターで数万個のプロセッサを利用してタスクを実行するために複数の国立研究所によって設計された専用プログラミング言語である Kokkos で並列コードを自動生成するという大掛かりなプロジェクトでこの問題に果敢に取り組んでいます。
Sandia は、情報検索機能と言語生成モデルを組み合わせた RAG (Retrieval-Augmented Generation) という AI 技術を利用しています。チームは、RAG を利用して、Kokkos データベースを構築し、AI モデルと統合しています。
初期の結果は期待どおりです。Sandia のさまざまな RAG アプローチにより、並列コンピューティング アプリケーション用の Kokkos コードが自動生成されることが実証されました。Sandia は、AI ベースの並列コードの生成における課題を克服することで、世界中の主要なスーパーコンピューティング施設での HPC の新たな可能性を切り開こうとしています。他の例として、再生可能エネルギー研究、気候科学、創薬が挙げられます。
量子コンピューティングの進化の推進
量子コンピューティングは、核融合エネルギー、気象研究、創薬、その他多くの分野の未来を切り開きます。そのため、研究者は、これまでにない速さで量子アルゴリズムの開発とテストを行うために、NVIDIA GPU ベースのシステムやソフトウェアを使用して、未来の量子コンピューターをシミュレートする作業に尽力しています。
NVIDIA CUDA-Q プラットフォームは、CPU、GPU、QPU (量子プロセッシング ユニット) の連携を実現する統一されたプログラミング モデルにより、量子コンピューターのシミュレーションとハイブリッド アプリケーションの開発を可能にします。
CUDA-Q は、BASF の化学ワークフロー、Stony Brook の高エネルギーおよび核物理学、NERSC の量子化学におけるシミュレーションを高速化しています。
NVIDIA Blackwell アーキテクチャは、量子シミュレーションを新たな高みへと導くのに貢献します。また、最新の NVIDIA NVLink マルチノード インターコネクト テクノロジを利用することで、データ転送が高速化し、量子シミュレーションの高速化が実現します。
科学の飛躍的発展に向けたデータ分析の加速化
RAPIDS を使用したデータ処理は、科学コンピューティングで一般的に行われています。Blackwell は、圧縮データを解凍し、RAPIDS での分析を高速化するハードウェア解凍エンジンを導入しています。
この解凍エンジンは、パフォーマンスを最大 800 GB/秒まで向上させ、Grace Blackwell がクエリ ベンチマークにおいて、Sapphire Rapids の CPU の 18 倍、NVIDIA H100 Tensor コア GPU の 6 倍速くの処理を可能にします。
このエンジンは、8 TB/秒の高メモリ帯域幅と Grace CPU の高速 NVLink C2C (Chip-to-Chip) インターコネクトを活用して、データ転送を加速させ、データベース クエリのプロセス全体を高速化します。Blackwell は、データ分析とデータ サイエンスのユース ケースで卓越したパフォーマンスを発揮し、データの洞察を速め、コストを削減します。
NVIDIA ネットワークによる科学コンピューティングにおける卓越したパフォーマンスの推進
NVIDIA Quantum-X800 InfiniBand ネットワーク プラットフォームは、科学コンピューティング インフラにおいて最高のスループットを実現します。
これには、NVIDIA Quantum Q3400 および Q3200 スイッチと NVIDIA ConnectX-8 SuperNIC が含まれており、これらの組み合わせで、前世代の 2 倍の帯域幅が実現します。Q3400 プラットフォームは、NVIDIA の SHARPv4 (Scalable Hierarchical Aggregation and Reduction Protocol) を使用して、5 倍の帯域幅容量と 14.4 Tflops の In-Network Computing を提供し、前世代と比較して 9 倍の性能向上を実現します。
パフォーマンスの飛躍的向上と電力効率の改善により、科学コンピューティングのワークロードの完了時間とエネルギー消費量が大幅に削減されます。
NVIDIA Blackwell の詳細については、こちらをご覧ください。