AI がソフトウェアを飲み込むとき

投稿者: Jensen Huang
あらゆるコンピューティング プラットフォーム、フレームワーク、そして人間の試みに AI を

今月開催された GPU テクノロジ カンファレンス (GTC) が大成功のうちに幕を閉じ、いまだ確信を持てずにいた人々に AI 革命の大いなる潮流を証明するものとなりました。

ここシリコンバレーで開かれた 4 日間のイベント全体を通して、メディア/エンターテイメント、製造、医療、輸送の各分野の世界トップ企業からの参加者が、GPU コンピューティングによって実現した各社のブレークスルーにまつわる逸話を紹介しました。

カンファレンスの様子は、数字が雄弁に物語っています。7,000 人を超える参加者、150 社を超える出展企業、600 を超えるテクニカル セッションが集結した第 8 回年次 GTC は、NVIDIA にとって過去最大のものとなりました。世界トップ 15 のテクノロジ企業をはじめ、AI と VR に重点的に取り組む世界トップ 10 の自動車メーカー、ならびに 100 社を超えるスタートアップ企業が一堂に会しました。

これらの数字の裏側には、強力なさまざまなトレンドが 1 つに合流しつつあるという事実が存在します。ムーアの法則の減速に逆らうコンピューティング能力の飛躍によって、AI が進化し続けています。AI 開発者が、現代における最大の課題のいくつかに対処する新たなフレームワークを構築すべく先を争っているためです。彼らの望みは、強力なクラウド サービスからクラウドのエッジ デバイスに至るまで、あらゆるモノの上で自分たちが開発した AI ソフトウェアを稼働させることにあります。

AI コンピューティングの時代 – すなわちそれは GPU コンピューティングの時代

「Volta」のチップを手に持ち発表する NVIDIA の創設者兼 CEO、ジェンスン フアンの写真
世界最先端の AI コンピューティング アーキテクチャ「Volta」を発表

GTC では、NVIDIA にとって CUDA の発明以来最大の世代的飛躍となる「Volta」を発表しました。Volta は、210 億のトランジスタから構成され、NVIDIA 向けに最適化された TSMC の 12nm プロセスで製造されており、Samsung の最速 HBM メモリを搭載しています。また、新しい数値形式と、4×4 の行列演算 (ディープラーニングの要素別処理演算) を超高速で実行する CUDA 命令を特徴としています。

各 Volta GPU は、120 テラフロップスのパフォーマンスを誇ります。さらに、NVIDIA の DGX-1 AI スーパーコンピューターが 8 基の Tesla V100 GPU と相互接続することで、1 ペタフロップス近くのディープラーニング パフォーマンスが実現されます。

Google の TPU

また先週には、Google が同社の I/O カンファレンスで、45 テラフロップスのパフォーマンスを備えた TPU2 チップを発表しました。

この 2 つの最先端チームを AI コンピューティングのレースで見られることは大変すばらしいことですが、一方で両チームは密接な全面協力の下、TensorFlow のパフォーマンスのチューニングと、NVIDIA CUDA GPU による Google クラウドの高速化も進めています。AI は、人類史上最も偉大なテクノロジです。AI の大衆化と急速な普及を目指す数々の取り組みが進められていることを非常に嬉しく思います。

ムーアの法則の終焉を越えて

CPU と GPU の性能比較グラフ
ムーアの法則が減速するなか、シリコンからソフトウェアまであらゆる構成要素の改良によって実現した GPU コンピューティングのパフォーマンスが急激に向上しています。

10 年近く前にムーアの法則 (デナード スケーリングと CPU アーキテクチャの進歩による複合効果) の減速が始まったにもかかわらず、AI 革命が到来しました。トランジスタを小型化し、電圧を下げることで、設計者がトランジスタの密度と速度を高めながらも電力密度を維持するデナード スケーリングは、現在、デバイスの物理的特性によって限界を迎えています。

CPU 設計者が得られるのはささやかな ILP (命令レベルの並列性) のみですが、回路と電力は大幅に増大します。そのため、ムーアの法則が成り立たなくなった現在は、CPU トランジスタと電力の大幅な増加によって、アプリケーション パフォーマンスが伸び悩み、過去には 50% あった年間伸び率が、近年はわずか 10% にとどまっています。

NVIDIA が開発したアクセラレーテッド コンピューティングのアプローチは、特定のアルゴリズム領域を対象としており、CPU をオフロードするための専用プロセッサを追加し、各業界の開発者を引き込んで、それぞれのアプリケーションを NVIDIA のアーキテクチャに合わせて最適化することで加速できるようにしようというものです。NVIDIA は、すべてのボトルネックを解消して光の速さを達成するため、アルゴリズム、ソルバー、アプリケーションのスタック全体に取り組んでいます。

Volta で AI ワークロードに適した驚異的な高速化を実現できたのもそのためです。Volta は、ピーク性能で、現世代の NVIDIA GPU アーキテクチャである Pascal の 5 倍、わずか 2 年前に発表された Maxwell アーキテクチャの 15 倍もの処理能力を備えています。このパフォーマンスの向上は、ムーアの法則で予測されていた値をはるかに超えるものです。

AI へのあらゆるアプローチを加速

様々な分野に広がる GPU を利用した AI サービスを開発するスタートアップ企業の一覧
AI 革命を中心に壮大なエコシステムが広がりました。

このようなパフォーマンスの飛躍的向上によって各業界からイノベーターが生まれ、GPU を利用した AI サービスを開発するスタートアップ企業の数はこの 1 年間で 4 倍以上増え、1,300 社に上りました。

誰もが次のブレークスルーを見逃すまいとしています。かつて、「ソフトウェアが世界を飲み込んでいる」とマーク アンドリーセン氏が指摘しましたが、今や「AI がソフトウェアを飲み込んでいる」と言えるでしょう。

GitHub オープンソース ソフトウェア リポジトリの主要な AI フレームワークをフォローするソフトウェア開発者の数は、この 2 年間で 5,000 人未満から 75,000 人を超えるまでに成長しました。

各種フレームワークの GPU 世代別性能比較グラフ
各種の最新フレームワークは Volta のパフォーマンスを利用して、トレーニング時間の劇的な短縮とマルチノード トレーニングのパフォーマンス向上を達成できます。

ディープラーニングは、どの主要テクノロジ企業にとっても戦略的に不可欠なものです。インフラストラクチャやツールから、製品の製造方法に至るまで、あらゆる仕事の側面にディープラーニングがますます浸透しています。NVIDIA はフレームワーク メーカー各社と連携して、パフォーマンスを最後の一滴まで絞り出そうとしています。NVIDIA の GPU に合わせて各フレームワークを最適化することで、モデルのトレーニングに要する何百回もの反復作業において、毎回数時間~数日単位でエンジニアの生産性を高めることができます。あらゆるネットワーク (Caffe2、Chainer、Microsoft Cognitive Toolkit、MXNet、PyTorch、TensorFlow) で、Volta に合わせた綿密な最適化が行われるでしょう。

NVIDIA GPU Cloud プラットフォームの構成図
NVIDIA GPU Cloud プラットフォームによって、AI 開発者は、PC、データ センター、クラウドを問わず、いつでも好きなときに NVIDIA の包括的なディープラーニング ソフトウェア スタックにアクセスできるようになります。

NVIDIA は、開発者がどこからでも、任意のフレームワークを使用して作業できる環境を構築したいと考えています。また、GTC では、データを社内に保存する必要のある企業向けに、優れた最新のワークステーションとサーバーを発表しました。

おそらく、最も活気ある環境は、2,470 億ドル規模のパブリック クラウド サービス市場でしょう。Alibaba、Amazon、Baidu、Facebook、Google、IBM、Microsoft、Tencent の各社データ センターで、NVIDIA の GPU が採用されています。

GTC では、上記のようなクラウド サービスへのイノベーターによるシームレスな移行を支援すべく、NVIDIA GPU Cloud プラットフォームを発表しました。このプラットフォームには、事前に構成され、最適化された各フレームワークのスタックを含むレジストリが用意されています。ソフトウェアの各レイヤーとそのすべての組み合わせがチューニングされ、テストされて、NVDocker コンテナにパッケージ化されています。NVIDIA では、今後もその拡張と保守を図り、発見されたすべてのバグを修正して、すべてが問題なく機能するよう取り組んでまいります。

自律マシンにおけるカンブリア爆発

生データから特徴を検出するディープラーニングの能力によって、自律マシン (つまり、AI による IoT) のカンブリア爆発が起こる条件が生まれました。今後、AI を利用したデバイスが数十億、あるいは数兆台単位で登場するでしょう。

GTC では、世界で最も大きな規模を持つ 10 社のうちの 1 社であり、最も評価の高い企業の 1 つでもあるトヨタの自動運転車に NVIDIA が採用されたことを発表しました。

また、ロボットの製造を支援する仮想ロボットである Isaac の発表も行いました。現在のロボットは手動プログラミングによるものなので、プログラミングされた作業だけを正確に行います。そこで、畳み込みニューラル ネットワークが自動運転車への取り組みに必要なコンピューター ビジョンのブレークスルーをもたらしたのと同様に、強化学習や模倣学習が、ロボット工学への取り組みに必要なブレークスルーになると考えられています。

ホッケーをするロボット
GTC で発表された Isaac が、強化学習や模倣学習をロボット工学にもたらします。

トレーニングが完了すれば、このロボットのブレイン (頭脳) がモジュール内の NVIDIA の AI スーパーコンピューターである Jetson にダウンロードされることになるでしょう。ロボットは仮想世界と現実世界のあらゆる違いへの耐性を得て、順応することが期待されます。これにより、新たなロボットが誕生します。GTC では、Isaac はホッケーとゴルフのプレイ方法を学習しました

最後に、NVIDIA は、専用の推論 TPU に対する NVIDIA のビジョンであり、NVIDIA の AI 自動車向けスーパーチップ「Xavier」に組み込まれている「DLA」 (ディープラーニング アクセラレータ) のオープンソース化を進めています。これは、NVIDIA ができる限り迅速な AI の普及を望んでおり、他に誰も推論 TPU の開発に投資する必要がないようにしたいと考えているためです。NVIDIA なら、世界有数のチップ設計者チームが設計した推論 TPU を無料で提供できます。

現代のアインシュタインやダ・ビンチを支援

これらは、NVIDIA GPU コンピューティングが現代のダ・ビンチやアインシュタインにとって不可欠なツールとなった経緯を示す最新の事例にすぎません。NVIDIA は、彼らにとってタイム マシンに相当するものを開発したわけです。ゲームの 3D グラフィックスと市場規模に対する絶え間ないテクノロジの需要に基づき、GPU をコンピューター ブレインへと進化させ、仮想現実と人工知能が交わる刺激的な舞台でイノベーションの水門を開いたのです。