世界最小の AI スーパーコンピューター「Jetson Xavier NX」の登場

NVIDIA は、世界最小の自律ロボットおよびエッジコンピューティングデバイス向け最先端組み込み AI スーパーコンピューター「Jetson Xavier NX」を発表しました。70x45mm というコンパクトなフォームファクターでサーバークラスの性能を持つ Jetson Xavier は、消費電力 15W 未満で最大 21 TOPS、消費電力 10W 未満で最大 14 TOPS の演算性能を誇ります。Jetson Xavier NX モジュール (図 1) は Jetson Nano とピン互換で、最新の MLPerf Inference 0.5 において並み居る SoC を抑えて最高性能を達成した NVIDIA Xavier SoC の低消費電力バージョンをベースにしています。そのため、サイズ、重量、消費電力、コストといった制約要因があるエッジに AI ベースの高負荷ワークロードを展開する場合に優れた性能を発揮します。

図 1：Jetson Xavier は消費電力 15W 未満で最大 21 TOPS、消費電力 10W 未満で最大 14 TOPS の演算が可能

図 2：高速 I/O およびメモリファブリックを含む Jetson Xavier NX プロセッサエンジンのブロック図

図 2 に示すように、Jetson Xavier NX は Tensor コア 48 基を搭載した 384 コア NVIDIA Volta GPU、6 コア NVIDIA Carmel ARMv8.2 64 ビット CPU、8GB 128 ビット LPDDR4x、2 つの NVIDIA Deep Learning Accelerator (NVDLA) エンジン、4K ビデオエンコーダー／デコーダー、最大 6 本の同時高解像度センサーストリーム対応の専用カメラ入力、PCIe Gen 3 拡張、2 つの DisplayPort/HDMI 4K ディスプレイ、USB 3.1 のほか、SPI、I2C、I2S、CAN bus、UART などの GPIO を搭載しています。機能については下の表 1、詳細な仕様については Jetson Xavier NX モジュールデータシートを参照してください。共有メモリファブリックにより、プロセッサは余分なメモリコピーを行うことなく自由にメモリを共有できるため (ZeroCopyと呼ばれる)、帯域幅利用やシステムのスループットが効率よく改善されます。

NVIDIA Jetson Xavier NX
CPU	6 コア NVIDIA Carmel 64 ビット ARMv8.2 @ 1400MHz* (6MB L2 + 4MB L3)
GPU	48 Tensor コア搭載 384 コア NVIDIA Volta @ 1100MHz
DL	デュアル NVIDIA Deep Learning Accelerator (NVDLA) エンジン
メモリ	8GB 128 ビット LPDDR4x @ 1600MHz \| 51.2GB/s
ストレージ	16GB eMMC 5.1
エンコーダー†	(2x) 4Kp60 \| (4x) 4Kp30 \| (12x) 1080p60 \| (32x) 1080p30 最大スループット：(2x) 690MP/s – H.265 Main
デコーダー†	(2x) 4Kp60 \| (4x) 4Kp30 \| (12x) 1080p60 \| (32x) 1080p30 最大スループット：(2x) 690MP/s – H.265 Main
カメラ††	(12x) MIPI CSI-2 レーン \| 3×4 または 6×2 カメラ最大 6 カメラ (仮想チャネルを介して 36)
ディスプレイ	(2x) DP 1.4 / eDP 1.4 / HDMI 2.0 a/b @ 4Kp60
イーサネット	10/100/1000 BASE-T イーサネット
USB	USB 3.1 (10Gbps) + (3x) USB 2.0
PCIe‡	(2x) PCIe Gen 3 コントローラー、5 レーン \| 1×1 + 1×1/2/4
その他 I/O	(3x) UART、(2x) SPI、(2x) I2C、I2S、CAN、GPIO
ソケット	260 ピン SODIMM エッジコネクター、70x45mm
温度^	-25℃ ～ 90℃ (Tj)
消費電力	10W / 15W モード、5V 入力

表 1：Jetson Xavier NX コンピュートモジュールの機能
* CPU の最大動作周波数は 4/6 コアモードで 1400MHz、デュアルコアモードで 1900MHz
† 最大同時ストリーム数は総スループットによる。対応ビデオコーデック：H.265、H.264、VP9
詳細なコーデックおよびプロファイル仕様については Jetson Xavier NX モジュールデータシートを参照。
†† MIPI CSI-2、D-PHY V1.2 (1 レーン当たり 2.5Gb/s、合計最大 30Gbps)
‡ PCIe 1×1 は Root Port モードのみ、1×1/2/4 は Root Port または Endpoint モードをサポート
^ 動作温度範囲、Xavier SoC ジャンクション温度 (Tj)

Jetson Xavier NX は、NVIDIA の CUDA-X ソフトウェアスタック一式と AI 開発用の JetPack SDK によってサポートされており、フルデスクトップ Linux 環境でのリアルタイムコンピュータービジョン、グラフィックスの高速化、およびリッチマルチメディアアプリケーションに加え、複数の高解像度センサーストリームに対して一般的な機械学習フレームワークや複雑な DNN を同時実行することが可能です。Jetson は、NVIDIA の AI アクセラレーテッドコンピューティングプラットフォームとの互換性により、容易な開発やクラウドとエッジ間のシームレスな移行が可能になります。

Jetson Xavier NX モジュールは、2020 年 3 月に 399 ドル (大量発注時) で販売開始される予定です。組み込み設計者は、Jetson Xavier NX 設計ガイドを含め、ダウンロード提供される設計資料を参照することにより、Jetson Xavier NX モジュールの本番デバイスおよびシステムを開発することができます。Jetson Nano とのピン互換性により、設計の共有化や Jetson Xavier NX への直接のアップグレードが可能です。Jetson エコシステムのハードウェア設計パートナーは、市販のキャリア、センサー、およびアクセサリーの提供に加え、カスタム設計サービスやシステム統合を提供することもできます。

ソフトウェア開発者は、デバイスを Jetson Xavier NX として動作させるデバイスコンフィギュレーションパッチを JetPack に適用することで、Jetson AGX Xavier Developer Kit を使って Jetson Xavier NX 用の AI アプリケーションの開発を直ちに始めることができます。システム全体のコアクロック周波数および電圧の設定のほか、有効な CPU および GPU コア数の変更はソフトウェアで行います。パッチは完全に元に戻すことが可能で、Jetson Xavier NX の性能をハードウェアの出荷開始前に近づける目的で使えます。

Jetson Xavier NX には 10W と 15W の消費電力モードがデフォルトで用意されており、モードに応じて 14 ～ 21 TOPS のピークパフォーマンスを実現します。CPU、GPU、メモリコントローラー、およびその他の SoC クロックの最大クロック周波数は、CPU クラスター数と共に、消費電力プロファイルの管理に使用する nvpmodel ツールによってオンラインで調整します。Jetson Xavier NX の既定の 10W および 15W モードにおけるこれらの設定を表 2 に掲載しています。CPU は各 2 コアの 3 クラスター構成で、最大動作周波数は 4/6 コアモードで 1400MHz、マルチスレッド性能ではなくシングルスレッド性能を必要とするアプリケーションに適したデュアルコアモードで 1900MHz です。

NVIDIA Jetson Xavier NX の消費電力モード
	10W モード	15W モード
性能	14 TOPS (INT8)	21 TOPS (INT8)
CPU	2 コア @ 1500MHz 4 コア @ 1200MHz	2 コア @ 1900MHz 4/6 コア @ 1400MHz
GPU	CUDA コア 384 基、Tensor コア 48 基 @ 800MHz*	CUDA コア 384 基、Tensor コア 48 基 @ 1100MHz*
DLA	デュアル NVDLA エンジン @ 900MHz	デュアル NVDLA エンジン @ 1100MHz
メモリ	8GB 128 ビット LPDDR4x @ 1600MHz \| 51.2GB/秒

表 2：Jetson Xavier NX の 10W / 15W 消費電力モードでの最大動作周波数とコア構成
* NVDLA 使用時の GPU の最大動作周波数は 600MHz (10W モード) / 1000MHz (15W モード)

ワークロードに応じて、DVFS (Dynamic Voltage and Frequency Scaling) ガバナーは、実行時の動作周波数をアクティブな nvpmodel によって決められた最大限度の範囲内で調整するため、アイドル時やプロセッサ使用率に応じて消費電力を削減できます。nvpmodel ツールは、アプリケーションの要件や TDP に応じた電力モードの新規作成やカスタマイズも容易に行えます。電力プロファイルの編集や /etc/nvpmodel.conf へ構成ファイルへの追加も可能です。また、Ubuntu ステータスバーにGUIウィジェットが追加され、実行時に電力モードを簡単に管理および切り替えることができます。

ディープラーニング推論ベンチマーク

さらに、NVIDIA は MLPerf Inference 0.5 ベンチマークの 5 部門中 4 部門で最高記録を達成したことも発表しました。Jetson AGX Xavier は、Mobilenet および ResNet-50 による画像分類、SSD-Mobilenet および SSD-ResNet による物体検出等のすべての視覚ベースのタスクで、エッジコンピューティング用 SoC の首位に輝きました。MLPerf によって定義された 5 つの推論テストで結果を提出できたチップアーキテクチャは、10 種類中 NVIDIA GPU だけでした。
Jetson ファミリー製品間のスケーラビリティの参考として、Jetson Nano、Jetson TX2、Jetson Xavier NX、および Jetson AGX Xavier の一般的な DNN モデルにおける画像分類、物体検出、姿勢推定、セグメンテーションなどに関する推論性能も測定しました。図 3 に示すこれらの結果は、TensorFlow、PyTorch、Caffe、MXNet といった一般的な ML フレームワークでトレーニングされたネットワークを、リアルタイム性能のために最適化する NVIDIA の TensorRT 推論アクセラレーターライブラリと JetPack を使って実行したものです。

図 3：Jetson ファミリー製品の TensorRT による各種 DNN モデルの推論性能

Jetson Xavier NX は、Jetson TX2 と同じ消費電力と 25% 小さい面積で最大 15 倍以上の性能を達成しています。これらのベンチマークでは、各プラットフォームを最大性能 (Jetson AGX Xavier は MAX-N モード、Xavier NX および TX2 は 15W モード、Nano は 10W モード) で動作させました。最大スループットは、16ms のレイテンシ閾値値を超えないバッチサイズで得られた数値です。プラットフォームがこのレイテンシ閾値を超えるネットワークでは、バッチサイズを 1 としました。この方法論により、リアルタイムアプリケーションにおける確定的な低レイテンシ要件と、マルチストリームユースケースシナリオにおける最大性能の間でバランスを考慮しています。

Jetson Xavier NX と Jetson AGX Xavier では、NVDLA エンジンと GPU の両方を INT8 精度で同時実行しました。それに対し、Jetson Nano と Jetson TX2 では GPU を FP16 精度で実行しました。Jetson Xavier NX の Tensor コア搭載 Volta アーキテクチャ GPU は、最大 12.3 TOPS の演算が可能で、モジュールの DLA エンジンはそれぞれ最大 4.5 TOPS の演算が可能です。

TensorRT によるニューラルネットワークの実行のほか、TensorFlow、PyTorch、Caffe/Caffe2、MXNet、Keras 等を含むCUDA や cuDNN による高速化使って、 ML フレームワークを Jetson にネイティブに実装することも可能です。Jetson Zoo には、AWS Greengrass などの IoT フレームワーク、Docker や Kubernetes などのコンテナーエンジンのほか、それらのプリビルトインストーラーやビルド手順も含まれています。

画期的な AI 製品を開発しよう

Jetson Xavier NX は、高性能 AI や複雑な DNN を必要とする次世代の自律システムやインテリジェントエッジデバイスを低消費電力かつ小さな面積で展開する新たな機会を広げます。そうした用途としては、モバイルロボット、ドローン、スマートカメラ、ポータブル医療機器、組み込みIoT システムなどが考えられます。CUDA-X をサポートする NVIDIA の JetPack SDK は、世界最高の性能を生かして最先端の AI ソリューションを開発したり、クラウドとエッジの間でアプリケーションをスケーリングしたりするための完全なツールを提供します。

NVIDIA が提供する設計資料と、Jetson AGX Xavier Developer Kit を Jetson Xavier NX として構成する JetPack パッチを使って今すぐ始めましょう。どんなものが生まれるか楽しみにしています。情報やサポートについては、NVIDIA Embedded Developer サイトをご覧ください。コミュニティのエキスパートに助言を求めたい場合は、DevTalk フォーラムを覗いてみてください。