NVIDIA Tensor コア GPU が推論に最適である理由を Intel が強調

世界をリードするテクノロジー企業の 1 社が他社製品の利点を強調することは滅多にありません。

Intel が、自社の最上位 CPU 2種と NVIDIA GPU の推論性能を比較した際、その滅多にないことが起こりました。

Anandtech によると、Intel はメインストリームのNVIDIA V100 GPU 1 基の性能を実現するために、大量の電力を消費する、合計推定価格5 万～10万ドルの最上位 CPU を 2 基組み合わせました。Intelの性能比較では、推論向けに設計された NVIDIA T4 GPU の明らかな優位性も浮き彫りになりました。最上位 CPU 1 基と比較した場合、NVIDIA T4 GPU のほうが高速であることはもちろん、エネルギー効率は 7 倍高く、コスト効率も桁違いに高いことがわかりました。

AI を使ったサービスが急速に広がりつつあるなか、推論性能は極めて重要です。Intel の最新 CPU である Cascade Lake は、最高の推論用 CPU を目指して、推論を改善する新しい命令を搭載しています。しかし、ディープラーニングに最適化されたNVIDIA Tensorコア GPU の競合製品とはとても言えません。

推論 (予測とも呼ばれます) とは、簡単に言えば、ニューラルネットワークがトレーニング後に行う「パターン認識」です。これは、金融取引における不正検出、自然言語での会話によるインターネット検索、製造装置の故障を未然に防ぐための予測分析といったアプリケーションにおいて、AI モデルが知的能力を発揮する領域です。

現在、ほとんどの AI 推論は CPU で行われていますが、幅広い AI モデルにわたって NVIDIA Tensor コア GPU の採用が急速に広がっています。画期的イノベーションである Tensor コアにより、NVIDIA GPU は極めて効率的で汎用性の高い AI プロセッサーへと変わりました。Tensor コアは、多精度演算を高速で実行して各種 AI モデルに最適な精度を提供することに加え、一般的な AI フレームワークで自動サポートされます。

それが Microsoft、Paypal、Pinterest、Snap、Twitter のように、推論に GPU を採用する消費者向けインターネット企業が増えている理由です。

コンピュータービジョンにおける Tensor コア GPU の魅力的な価値

NVIDIA Volta アーキテクチャで初めて投入されたTensor コア GPU は現在、NVIDIA Turing を採用した第 2 世代となっています。Tensor コアは、AI 向けの極めて効率的な計算を 32 ビット累算による 16 ビット浮動小数点演算から、32 ビット累算による 8 ビットおよび 4 ビット整数演算までの幅広い精度で実行します。

AI トレーニングと AI 推論の両方を高速化できるように設計されており、TensorFlow および PyTorch フレームワークの自動混合精度機能を使って簡単に実現できます。開発者は、既存の TensorFlow プロジェクトにたった 2 行のコードを追加するだけで、トレーニングスピードを 3 倍にすることが可能です。

コンピュータービジョンでは、同数のプロセッサを比較した以下の表が示すように、NVIDIA T4 のほうが高速で、電力効率が7倍高く、はるかに低価格です。AI トレーニング用に設計された NVIDIA V100 は、推論において CPU の 2 倍の速度およびエネルギー効率を実現しています。

表 1：ResNet-50 による推論

	2 ソケット Intel Xeon 9282	NVIDIA V100 (Volta)	NVIDIA T4 (Turing)
ResNet-50 推論 (画像/秒)	7,878	7,844	4,944
プロセッサー数	2	1	1
合計プロセッサー TDP	800 W	350 W	70 W
エネルギー効率 (TDP に基づく)	10 画像/秒/W	22 画像/秒/W	71 画像/秒/W
プロセッサー 1 基当たりの性能 (画像/秒)	3,939	7,844	4,944
GPU の性能優位性	1.0 (基準)	2.0 倍	1.3 倍
GPU のエネルギー効率優位性	1.0 (基準)	2.3 倍	7.2 倍

出典：Intel Xeon の性能、NVIDIA GPU の性能

自然言語理解における Tensor コア GPU の魅力的な価値

AI は、とんでもない速さで進歩しています。この飛躍的進歩は、極めて正確で急激に複雑化する AI モデルの革新と開発に邁進する AI 研究者とデータサイエンティストのチームによって支えられています。

4年以上前、コンピュータービジョンは Microsoft の AI が ResNet-50 のようなモデルを使って、初めて超人的な精度で実行できるようになったアプリケーションでした。現在の進化したモデルは、言語や話し言葉の理解といったさらに複雑なタスクを超人的な精度で実行します。Google が昨年オープンソース化した極めて複雑な AI モデル「BERT」は、超人的な精度で散文を理解し、質問に答えることが可能になっています。

AI モデルの複雑度を示す指標は、モデルのパラメーター数です。AI モデルのパラメーターは、モデルが学習した情報を格納する変数です。ResNet-50 のパラメーター数が 2,500 万であるのに対し、BERT のパラメーター数は 13 倍の 3 億 4,000 万に増えています。

BERT のような高度なモデルにおいて、NVIDIA T4 GPU は 1基でデュアルソケット CPU サーバーの 56 倍の速度および 240 倍のエネルギー効率を実現しています。

表 2：BERT による推論。ワークロード：BERT Large データセットによる転移学習推論。

	デュアル Intel Xeon Gold 6240	NVIDIA T4 (Turing)
BERT 推論、質問応答 (センテンス/秒)	2	118
プロセッサー TDP	300 W (150 Wx2)	70 W
エネルギー効率 (TDP に基づく)	0.007 センテンス/秒/W	1.7 センテンス/秒/W
GPU の性能優位性	1.0 (基準)	59 倍
GPU のエネルギー効率優位性	1.0 (基準)	240 倍

CPU サーバー：デュアルソケット Xeon Gold 6240 (2.6GHz)、384GB システム RAM、FP32 精度、Intel の TF Docker コンテナー v. 1.13.1 を使用。注：CPU はバッチサイズ 4 の結果で最高スコアを記録。

GPU の結果：T4：デュアルソケット Xeon Gold 6240 (2.6GHz)、384GB システム RAM、混合精度、CUDA 10.1.105、NCCL 2.4.3、cuDNN 7.5.0.56、cuBLAS 10.1.105、NVIDIA ドライバー 418.67、TensorFlow で自動混合精度機能および XLA コンパイラーを使用、テストしたすべてのプラットフォームでバッチサイズ 4、シーケンス長 128 を使用。

レコメンダーシステムにおける Tensor コア GPU の魅力的な価値

AI のもう 1 つの重要な用途として、動画共有サイトにおける関連コンテンツのレコメンド、ソーシャルサイトにおけるニュースフィード、電子商取引サイトにおける商品のレコメンドの提示に使われるレコメンドシステムが挙げられます。

Neural Collaborative Filtering (NCF) は、ユーザーが過去に行ったアイテムとのインタラクションを用いてレコメンドを提示するレコメンダーシステムです。MLPerf 0.5 トレーニングベンチマークの一部である NCF モデルで推論を実行した際、NVIDIA T4 は CPU の 12 倍の性能および 24 倍のエネルギー効率を実現しています。

表 3：NCF による推論

	シングル Intel Xeon Gold 6140	NVIDIA T4 (Turing)
レコメンダー推論スループット (MovieLens) (1000 サンプル/秒)	2,860	27,800
プロセッサー TDP	150 W	70 W
エネルギー効率 (TDP に基づく)	19 サンプル/秒/W	397 サンプル/秒/W
GPU の性能優位性	1.0 (基準)	10 倍
GPU のエネルギー効率優位性	1.0 (基準)	20 倍

CPU サーバー：シングルソケット Xeon Gold 6240 (2.6GHz)、384GB システム RAM、Intel Benchmark for NCF on TensorFlow と Intel の TF Docker コンテナーバージョン 1.13.1 を使用、FP32 精度。

GPU の結果：T4：シングルソケット Xeon Gold 6140 (2.3GHz)、384GB システム RAM、CUDA 10.1.105、NCCL 2.4.3、cuDNN 7.5.0.56、cuBLAS 10.1.105、NVIDIA ドライバー 418.40.04、TensorFlow で自動混合精度機能および XLA コンパイラーを使用、バッチサイズ：CPU = 2,048、T4 =1,048,576、精度：CPU = FP32、T4 = 混合精度。注：CPU テストではデュアルソケット CPU 構成よりも高いスコアが記録されたシングルソケット CPU 構成を採用。

AI トレーニングと AI 推論のための統合プラットフォーム

アプリケーションにおける AI モデルの使用は、性能の継続的改善を目的とする反復プロセスです。データサイエンティストチームは、精度を上げるために絶えず新しいデータやアルゴリズムを使ってモデルをアップデートしています。それらのモデルは、さらに開発者によってアプリケーションでアップデートされます。

アップデートは毎月、毎週、さらには毎日行われることもあります。AI トレーニングと AI 推論を 1 つのプラットフォームにまとめることで、アプリケーションへの AI の展開およびアップデートプロセスの大幅な簡素化と迅速化を実現できます。

NVIDIA のデータセンター GPU コンピューティングプラットフォームは、業界標準の AI ベンチマーク「MLPerf」によって実証されているように、AI トレーニングの性能において業界を大きくリードしています。また、ここで示したデータが裏付けているように、NVIDIA のプラットフォームは推論においても魅力的な価値を提供します。その価値は、最新の AI が進歩し、複雑度が増すに従って高まります。

NVIDIA は、AI の飛躍的進歩を促進するため、エコシステムに深く取り組んでいるほか、TensorFlow、Pytorch、MxNet といった重要なフレームワークをはじめとするソフトウェアはもちろん、TensorRT や TensorRT Inference Server といった推論ソフトウェアの最適化を絶えず行っています。

また、NVIDIA は推論用のトレーニング済み AI モデルや、開発者独自のデータでモデルをトレーニングするためのモデルスクリプトを定期的に公開しています。このソフトウェアはすべてコンテナとして無償提供されており、NVIDIA の GPU アクセラレーション対応ソフトウェアのハブである NGC から、いつでもダウンロードして実行できます。

NVIDIA の包括的な AI プラットフォームについてはこちらをご覧ください。