世界最小の AI スーパーコンピューター「Jetson Xavier NX」の登場

投稿者: NVIDIA Japan

NVIDIA は、世界最小の自律ロボットおよびエッジ コンピューティング デバイス向け最先端組み込み AI スーパーコンピューター「Jetson Xavier NX」を発表しました。70x45mm というコンパクトなフォームファクターでサーバークラスの性能を持つ Jetson Xavier は、消費電力 15W 未満で最大 21 TOPS、消費電力 10W 未満で最大 14 TOPS の演算性能を誇ります。Jetson Xavier NX モジュール (図 1) は Jetson Nano とピン互換で、最新の MLPerf Inference 0.5 において並み居る SoC を抑えて最高性能を達成した NVIDIA Xavier SoC の低消費電力バージョンをベースにしています。そのため、サイズ、重量、消費電力、コストといった制約要因があるエッジに AI ベースの高負荷ワークロードを展開する場合に優れた性能を発揮します。


図 1:Jetson Xavier は消費電力 15W 未満で最大 21 TOPS、消費電力 10W 未満で最大 14 TOPS の演算が可能

図 2:高速 I/O およびメモリ ファブリックを含む Jetson Xavier NX プロセッサ エンジンのブロック図

図 2 に示すように、Jetson Xavier NX は Tensor コア 48 基を搭載した 384 コア NVIDIA Volta GPU、6 コア NVIDIA Carmel ARMv8.2 64 ビット CPU、8GB 128 ビット LPDDR4x、2 つの NVIDIA Deep Learning Accelerator (NVDLA) エンジン、4K ビデオ エンコーダー/デコーダー、最大 6 本の同時高解像度センサーストリーム対応の専用カメラ入力、PCIe Gen 3 拡張、2 つの DisplayPort/HDMI 4K ディスプレイ、USB 3.1 のほか、SPI、I2C、I2S、CAN bus、UART などの GPIO を搭載しています。機能については下の表 1、詳細な仕様については Jetson Xavier NX モジュール データシートを参照してください。共有メモリ ファブリックにより、プロセッサは余分なメモリコピーを行うことなく自由にメモリを共有できるため (ZeroCopyと呼ばれる)、帯域幅利用やシステムのスループットが効率よく改善されます。

NVIDIA Jetson Xavier NX
CPU 6 コア NVIDIA Carmel 64 ビット ARMv8.2 @ 1400MHz* (6MB L2 + 4MB L3)
GPU 48 Tensor コア搭載 384 コア NVIDIA Volta @ 1100MHz
DL デュアル NVIDIA Deep Learning Accelerator (NVDLA) エンジン
メモリ 8GB 128 ビット LPDDR4x @ 1600MHz | 51.2GB/s
ストレージ 16GB eMMC 5.1
エンコーダー† (2x) 4Kp60 | (4x) 4Kp30 | (12x) 1080p60 | (32x) 1080p30
最大スループット:(2x) 690MP/s – H.265 Main
デコーダー† (2x) 4Kp60 | (4x) 4Kp30 | (12x) 1080p60 | (32x) 1080p30
最大スループット:(2x) 690MP/s – H.265 Main
カメラ†† (12x) MIPI CSI-2 レーン | 3×4 または 6×2 カメラ
最大 6 カメラ (仮想チャネルを介して 36)
ディスプレイ (2x) DP 1.4 / eDP 1.4 / HDMI 2.0 a/b @ 4Kp60
イーサネット 10/100/1000 BASE-T イーサネット
USB USB 3.1 (10Gbps) + (3x) USB 2.0
PCIe‡ (2x) PCIe Gen 3 コントローラー、5 レーン | 1×1 + 1×1/2/4
その他 I/O (3x) UART、(2x) SPI、(2x) I2C、I2S、CAN、GPIO
ソケット 260 ピン SODIMM エッジ コネクター、70x45mm
温度^ -25℃ ~ 90℃ (Tj)
消費電力 10W / 15W モード、5V 入力
表 1:Jetson Xavier NX コンピュート モジュールの機能
* CPU の最大動作周波数は 4/6 コア モードで 1400MHz、デュアルコア モードで 1900MHz
† 最大同時ストリーム数は総スループットによる。対応ビデオ コーデック:H.265、H.264、VP9
詳細なコーデックおよびプロファイル仕様については Jetson Xavier NX モジュール データシートを参照。
†† MIPI CSI-2、D-PHY V1.2 (1 レーン当たり 2.5Gb/s、合計最大 30Gbps)
‡ PCIe 1×1 は Root Port モードのみ、1×1/2/4 は Root Port または Endpoint モードをサポート
^ 動作温度範囲、Xavier SoC ジャンクション温度 (Tj)

Jetson Xavier NX は、NVIDIA の CUDA-X ソフトウェア スタック一式と AI 開発用の JetPack SDK によってサポートされており、フル デスクトップ Linux 環境でのリアルタイム コンピューター ビジョン、グラフィックス の高速化、およびリッチ マルチメディア アプリケーションに加え、複数の高解像度センサー ストリームに対して一般的な機械学習フレームワークや複雑な DNN を同時実行することが可能です。Jetson は、NVIDIA の AI アクセラレーテッド コンピューティング プラットフォームとの互換性により、容易な開発やクラウドとエッジ間のシームレスな移行が可能になります。

Jetson Xavier NX モジュールは、2020 年 3 月に 399 ドル (大量発注時) で販売開始される予定です。組み込み設計者は、Jetson Xavier NX 設計ガイドを含め、ダウンロード提供される設計資料を参照することにより、Jetson Xavier NX モジュールの本番デバイスおよびシステムを開発することができます。Jetson Nano とのピン互換性により、設計の共有化や Jetson Xavier NX への直接のアップグレードが可能です。Jetson エコシステムのハードウェア設計パートナーは、市販のキャリア、センサー、およびアクセサリーの提供に加え、カスタム設計サービスやシステム統合を提供することもできます。

ソフトウェア開発者は、デバイスを Jetson Xavier NX として動作させるデバイス コンフィギュレーション パッチを JetPack に適用することで、Jetson AGX Xavier Developer Kit を使って Jetson Xavier NX 用の AI アプリケーションの開発を直ちに始めることができます。システム全体のコア クロック周波数および電圧の設定のほか、有効な CPU および GPU コア数の変更はソフトウェアで行います。パッチは完全に元に戻すことが可能で、Jetson Xavier NX の性能をハードウェアの出荷開始前に近づける目的で使えます。

Jetson Xavier NX には 10W と 15W の消費電力モードがデフォルトで用意されており、モードに応じて 14 ~ 21 TOPS のピーク パフォーマンスを実現します。CPU、GPU、メモリ コントローラー、およびその他の SoC クロックの最大クロック周波数は、CPU クラスター数と共に、消費電力プロファイルの管理に使用する nvpmodel ツールによってオンラインで調整します。Jetson Xavier NX の既定の 10W および 15W モードにおけるこれらの設定を表 2 に掲載しています。CPU は各 2 コアの 3 クラスター構成で、最大動作周波数は 4/6 コア モードで 1400MHz、マルチスレッド性能ではなくシングルスレッド性能を必要とするアプリケーションに適したデュアルコア モードで 1900MHz です。

NVIDIA Jetson Xavier NX の消費電力モード
10W モード 15W モード
性能 14 TOPS (INT8) 21 TOPS (INT8)
CPU 2 コア @ 1500MHz
4 コア @ 1200MHz
2 コア @ 1900MHz
4/6 コア @ 1400MHz
GPU CUDA コア 384 基、Tensor コア 48 基 @ 800MHz* CUDA コア 384 基、Tensor コア 48 基 @ 1100MHz*
DLA デュアル NVDLA エンジン @ 900MHz デュアル NVDLA エンジン @ 1100MHz
メモリ 8GB 128 ビット LPDDR4x @ 1600MHz | 51.2GB/秒
表 2:Jetson Xavier NX の 10W / 15W 消費電力モードでの最大動作周波数とコア構成
* NVDLA 使用時の GPU の最大動作周波数は 600MHz (10W モード) / 1000MHz (15W モード)

ワークロードに応じて、DVFS (Dynamic Voltage and Frequency Scaling) ガバナーは、実行時の動作周波数をアクティブな nvpmodel によって決められた最大限度の範囲内で調整するため、アイドル時やプロセッサ使用率に応じて消費電力を削減できます。nvpmodel ツールは、アプリケーションの要件や TDP に応じた電力モードの新規作成やカスタマイズも容易に行えます。電力プロファイルの編集や /etc/nvpmodel.conf へ構成ファイルへの追加も可能です。また、Ubuntu ステータスバー にGUIウィジェットが追加され、実行時に電力モードを簡単に管理および切り替えることができます。

ディープラーニング推論ベンチマーク

さらに、NVIDIA は MLPerf Inference 0.5 ベンチマークの 5 部門中 4 部門で最高記録を達成したことも発表しました。Jetson AGX Xavier は、Mobilenet および ResNet-50 による画像分類、SSD-Mobilenet および SSD-ResNet による物体検出等のすべての視覚ベースのタスクで、エッジ コンピューティング用 SoC の首位に輝きました。MLPerf によって定義された 5 つの推論テストで結果を提出できたチップ アーキテクチャ は、10 種類中 NVIDIA GPU だけでした。
Jetson ファミリー製品間のスケーラビリティの参考として、Jetson Nano、Jetson TX2、Jetson Xavier NX、および Jetson AGX Xavier の一般的な DNN モデルにおける画像分類、物体検出、姿勢推定、セグメンテーションなどに関する推論性能も測定しました。図 3 に示すこれらの結果は、TensorFlow、PyTorch、Caffe、MXNet といった一般的な ML フレームワークでトレーニングされたネットワークを、リアルタイム性能のために最適化する NVIDIA の TensorRT 推論アクセラレーター ライブラリと JetPack を使って実行したものです。


図 3:Jetson ファミリー製品の TensorRT による各種 DNN モデルの推論性能

Jetson Xavier NX は、Jetson TX2 と同じ消費電力と 25% 小さい面積で最大 15 倍以上の性能を達成しています。これらのベンチマークでは、各プラットフォームを最大性能 (Jetson AGX Xavier は MAX-N モード、Xavier NX および TX2 は 15W モード、Nano は 10W モード) で動作させました。最大スループットは、16ms のレイテンシ閾値値を超えないバッチ サイズで得られた数値です。プラットフォームがこのレイテンシ閾値を超えるネットワークでは、バッチ サイズを 1 としました。この方法論により、リアルタイム アプリケーションにおける確定的な低レイテンシ要件と、マルチストリーム ユースケース シナリオにおける最大性能の間でバランスを考慮しています。

Jetson Xavier NX と Jetson AGX Xavier では、NVDLA エンジンと GPU の両方を INT8 精度で同時実行しました。それに対し、Jetson Nano と Jetson TX2 では GPU を FP16 精度で実行しました。Jetson Xavier NX の Tensor コア搭載 Volta アーキテクチャ GPU は、最大 12.3 TOPS の演算が可能で、モジュールの DLA エンジンはそれぞれ最大 4.5 TOPS の演算が可能です。

TensorRT によるニューラル ネットワークの実行のほか、TensorFlow、PyTorch、Caffe/Caffe2、MXNet、Keras 等を含むCUDA や cuDNN による高速化使って、 ML フレームワークを Jetson にネイティブに実装することも可能です。Jetson Zoo には、AWS Greengrass などの IoT フレームワーク、Docker や Kubernetes などのコンテナー エンジンのほか、それらのプリビルト インストーラーやビルド手順も含まれています。

画期的な AI 製品を開発しよう

Jetson Xavier NX は、高性能 AI や複雑な DNN を必要とする次世代の自律システムやインテリジェント エッジ デバイスを低消費電力かつ小さな面積で展開する新たな機会を広げます。そうした用途としては、モバイル ロボット、ドローン、スマート カメラ、ポータブル医療機器、組み込みIoT システムなどが考えられます。CUDA-X をサポートする NVIDIA の JetPack SDK は、世界最高の性能を生かして最先端の AI ソリューションを開発したり、クラウドとエッジの間でアプリケーションをスケーリングしたりするための完全なツールを提供します。

NVIDIA が提供する設計資料と、Jetson AGX Xavier Developer Kit を Jetson Xavier NX として構成する JetPack パッチを使って今すぐ始めましょう。どんなものが生まれるか楽しみにしています。情報やサポートについては、NVIDIA Embedded Developer サイトをご覧ください。コミュニティのエキスパートに助言を求めたい場合は、DevTalk フォーラムを覗いてみてください。