GPU が AI に最適な理由

投稿者: Rick Merritt

NVIDIA GPU は、チップ、システム、ソフトウェアにおける機能により、何百万もの人が享受しているパフォーマンスと効率性を備えた機械学習に理想的です。

GPU は、今日の生成 AI 時代の基盤となっているため、人工知能のレア アース、あるいはゴールドとも呼ばれています。

以下の 3 つの技術的な理由と多くのエピソードがその理由を説明しています。各理由には多角的な側面があり、探求する価値は十分で、かつ高水準です。

  • GPU は並列処理を採用
  • スーパーコンピューティングの高みへとスケールアップした GPU システム
  • 幅広く深い AI のための GPU ソフトウェア スタック

これらの結果、GPU は CPU よりも高速かつ高いエネルギー効率で技術計算を実行します。つまり、GPU は AI のトレーニングや推論においてトップクラスの性能を発揮し、アクセラレーテッド コンピューティングを使用する幅広いアプリケーションで利益をもたらします。

スタンフォード大学の Human-Centered AI グループは、AI に関する最近の報告書の中で、いくつかの背景を説明しています。GPU の性能は 2003 年以来「およそ 7,000 倍向上し」、価格あたりの性能は「5,600 倍」になったと報告しました。

2023 年のレポートは、GPU の性能と性能/価格の急上昇を捉えています。

報告書はまた、AI の進歩を測定、予測する独立研究グループである Epoch の分析も引用しています。

Epoch はサイト上にて次のように述べています。「GPU は、機械学習ワークロードを加速するための主要なコンピューティング プラットフォームです。すべてではないにしても、過去 5 年間における最大級モデルの大半は GPU でトレーニングされてきました。ですので、AI における最近の進歩に中心的に貢献しました」

米国政府向けの AI 技術を評価した 2020 年の調査でも、同様の結論が出ています。

「最先端 AI チップは、製造コストと運用コストを考慮すると、最先端ノード CPU よりも 1~3 桁コスト効率が高い」と予想しています。

NVIDIA のチーフ サイエンティストである Bill Dally (ビル ダリー) は、半導体およびシステム エンジニアが毎年集まる Hot Chips の基調講演にて、NVIDIA の GPU は、過去 10 年間で AI 推論のパフォーマンスを 1,000 倍に向上させたと述べました。

ChatGPT がニュースを広める

ChatGPT は、GPU がいかに AI に適しているかを示す強力な例となりました。何千もの NVIDIA の GPU でトレーニングされ実行される大規模言語モデル (LLM) は、1 億人以上の人々が利用する生成 AI サービスを実行しています。

2018 年の発売以来、AI の業界標準ベンチマークである MLPerf は、AI のトレーニングと推論の両方における NVIDIA GPU の優れた性能を詳細に示す数値を提供してきました。

例えば、NVIDIA Grace Hopper Superchip は、推論テストの最新ラウンドを席巻しました。そのテスト以降にリリースされた推論ソフトウェアである NVIDIA TensorRT-LLM は、パフォーマンスを最大 8 倍向上させ、エネルギー使用量と総所有コストを 5 倍以上削減します。実際、NVIDIA GPU は、ベンチマークが 2019 年にリリースされて以来、MLPerf のトレーニングと推論テストのすべてのラウンドで勝利しています。

2 月には、NVIDIA GPU は、金融サービス業界にとって重要な技術性能指標である STAC-ML Markets ベンチマークにおいて、最も負荷の高いモデルで毎秒数千の推論を提供し、推論においてトップクラスの結果を出しました。

RedHat のソフトウェア エンジニアリング チームはブログ内にて「GPU は人工知能の基盤になった」と簡潔に表現しています。

AI の裏側

GPU と AI がなぜ強力な組み合わせになるのか、その裏側を簡単に見てみましょう。

ニューラルネットワークとも呼ばれる AI モデルは、基本的に数学的なラザニアのようなもので、線形代数方程式を何層にも重ねたものです。それぞれの方程式は、あるデータが別のデータに関連する可能性を表しています。

GPU には何千ものコアが搭載されており、並列に動作する小さな計算機が AI モデルを構成する計算を切り分けます。これが、ハイレベルでの AI コンピューティングの仕組みです。

高度にチューニングされた Tensor コア

長年の間、NVIDIA のエンジニアは、AI モデルの進化するニーズに合わせて GPU コアをチューニングしてきました。最新の GPU には、ニューラルネットワークが使用する行列計算を処理するための、第一世代よりも 60 倍強力な Tensor コアが含まれています。

さらに、NVIDIA H100 Tensor コア GPU には、生成 AI を生み出したニューラルネットワークの一種である Transformer モデルの処理に必要な最適精度に自動的に調整される Transformer Engine が搭載されています。

GPU は世代が進むにつれ、より多くのメモリを搭載し、AI モデル全体を単一の GPU または GPU セットに収める技術が最適化されてきました。

成長するモデル、拡大するシステム

AI モデルの複雑さは、1 年でなんと 10 倍に拡大しています。

現在の最先端 LLM である GPT-4 は、数学的密度の指標であるパラメーターを 1 兆個以上搭載しています。これは、2018 年に一般的だった LLM の 1 億以下のパラメーターから増加しています。

先日の Hot Chips での講演で、NVIDIA のチーフ サイエンティストである Bill Dally は、AI 推論におけるシングル GPU の性能が過去 10 年間で 1,000 倍に拡大したことを説明しました。

GPU システムは、この課題に取り組むことで歩調を合わせてきました。高速な NVLink インターコネクトと NVIDIA Quantum InfiniBand ネットワークのおかげで、GPU システムはスーパーコンピューターにまでスケールアップします。

例えば、大規模メモリ AI スーパーコンピューターである DGX GH200 は、最大 256 基のNVIDIA GH200 Grace Hopper Superchip を、144 テラバイトの共有メモリを持つデータセンター サイズのシングル GPU に統合しています。

各 GH200 スーパーチップは、72 個の Arm Neoverse CPU コアと 4 ペタフロップスの AI 性能を備えた 1 台のサーバーです。新しい 4 Way Grace Hopper システム構成は、1 台のコンピュート ノードに 288 個もの Arm コアと 16 ペタフロップスの AI 性能、最大 2.3 テラバイトの高速メモリを搭載しています。

また、11 月に発表された NVIDIA H200 Tensor コア GPU は、最大 288 ギガバイトの最新の HBM3e メモリ技術を搭載しています。

ソフトウェアがウォーターフロントをカバー

2007 年以来、高度に専門的な機能から高度なアプリケーションまで、AI のあらゆる側面を可能にする GPU ソフトウェアは大海原のように進化してきました。

NVIDIA AI プラットフォームには、何百ものソフトウェア ライブラリとアプリケーションが含まれています。ディープラーニングのための CUDA プログラミング言語と cuDNN-X ライブラリは、開発者が NVIDIA NeMo のようなソフトウェアを作成するための基盤を提供します。NVIDIA NeMo は、ユーザーが独自の生成 AI モデルを構築し、カスタマイズし、推論を実行するためのフレームワークです。

これらの機能の多くは、ソフトウェア開発者の定番であるオープンソース ソフトウェアとして提供されています。完全なセキュリティとサポートを必要とする企業向けに、100 以上の機能が NVIDIA AI Enterprise プラットフォームにパッケージ化されています。また、NVIDIA DGX Cloud 上の API やサービスとして、主要なクラウド サービス プロバイダから入手可能なケースも増えています。

SteerLM は、NVIDIA GPU 向けの最新の AI ソフトウェア アップデートの 1 つで、推論中にモデルをファインチューニングすることができます。

2008 年に 70 倍のスピードアップ

成功例は、AI のパイオニアである Andrew Ng 氏 (当時スタンフォード大学の研究者) の2008 年の論文にまでさかのぼります。彼の 3 人のチームは、2 基の NVIDIA GeForce GTX 280 GPU を使用して、1 億個のパラメーターを持つ AI モデルを処理する際に、CPU の 70 倍のスピードアップを達成し、数週間かかっていた作業を一日で終わらせました。

論文内には次のように記されています。「最新のグラフィックス プロセッサは、マルチコア CPU の計算能力をはるかに凌駕しており、教師なし学習法の適用可能性を大きく変える可能性を秘めています」

Andrew Ng 氏は GTC 2015 の講演で、AI に GPU を使用した経験を語っています。

2015 年に NVIDIA GTC で行われた講演で、Ng 氏は、Google Brain と Baidu でより大きなモデルを実行し、自分の仕事をスケールアップするために、より多くの GPU を使用し続けた方法を説明しました。その後、彼はオンライン教育プラットフォームである Coursera の設立を支援し、そこで何十万人もの AI 学生を指導しました。

Ng 氏が影響を受けた人物の一人に、現代 AI のゴッドファーザーの一人である Geoff Hinton 氏がいます。彼は GTC の講演内で次のように述べました。「私は Geoff Hinton のところに行き、CUDA をチェックしてください、より大きなニューラルネットワークを構築するのに役立つと思います、と言ったことを覚えています」

トロント大学の教授の、彼のこのような言葉も広まりました。「2009 年、私は NIPS (現在の NeurIPS) で講演し、約 1000 人の研究者に GPU は機械学習の未来になるから、GPU を買うべきだと言ったことを覚えています」と、Hinton 氏は過去のレポートで述べています。

GPU の躍進

AI の恩恵は世界経済全体に波及すると予想されています。

6 月に発表されたマッキンゼーのレポートでは、銀行、医療、小売などの業界における 63 のユースケースを分析した結果、生成 AI は年間 2.6 兆ドルから 4.4 兆ドルに相当する利益をもたらす可能性があると試算しています。スタンフォード大学が 2023 年 AI レポートで、ビジネスリーダーの大半が AI への投資を増やすと予想しているのも当然と言えるでしょう。

現在、4 万社以上の企業が AI やアクセラレーテッド コンピューティングに NVIDIA GPU を使用しており、400 万人の開発者からなるグローバル コミュニティを引き付けています。彼らは共に、科学、ヘルスケア、金融、そして事実上あらゆる産業を発展させています。

最新の成果の中で、NVIDIA は二酸化炭素を大気から排除することで気候変動を緩和するために AI を使用し、70 万倍という驚異的なスピードアップを実現したことを説明しました (以下のビデオを参照)。これは、NVIDIA が GPU の性能を AI やそれよりもはるか先の分野に応用している多くの方法の 1 つです。

GPU がどのように AI を本番環境に導入しているかをご覧ください。