NVIDIA が TensorRT 6 を発表、BERT-Large における 10 ミリ秒の壁を突破

投稿者: NVIDIA Japan

NVIDIA はこのたび、TensorRT 6 をリリースしました。今回のバージョンには、対話型 AI アプリケーション、音声認識、医療用アプリケーションにおける 3D 画像のセグメンテーション、産業オートメーションにおける画像ベースのアプリケーションなどを劇的に高速化する新機能が搭載されています。

TensorRT は高性能ディープラーニング推論の最適化・実行ライブラリであり、AI アプリケーションにおける低遅延かつ高スループットの推論を可能にします。

今回のリリースでは、TensorRT は最適化されるレイヤー群を拡張することで対話型 AI アプリケーションに強く求められている性能を実現するとともに、各フレームワークとの統合性をさらに向上させ、開発者のアプリケーションを NVIDIA GPU に容易に展開するための橋渡しを行います。

また TensorRT 6 で追加された新たな最適化機能を利用すれば、複数の T4 GPU にて BERT-Large の推論をわずか 5.8 ミリ秒 で実行することができます。これにより、企業による BERT-Large モデルの本番展開が初めて現実的になりました。

現在、業界内のさまざまな企業が BERT (Bidirectional Encoder Representations from Transformers) を使用したソリューションを言語ベースのサービスに利用する道を探っています。BERT には「重み」をアプリケーション間で再利用できるうえ、精度が高いという長所があるためです。NVIDIA は先日、BERT-Base での推論に向けた TensorRT の最適化機能をリリースしましたが、今回の新バージョンでは、この推論を 2 ミリ秒 で実行できます。推論のパフォーマンス測定結果の全体は、ディープラーニング パフォーマンスのページでご覧いただけます。

魅力的な体験を提供するためには、BERT のような自然言語理解 (NLU) モデルを 10 ミリ秒 未満で実行する必要があります。BERT-Base は 1 億 1,000 万個のパラメーターを利用し、さまざまな QA タスクを高い精度でこなします。BERT-Large は 3 億 4,000 万個のパラメーターを利用し、ある種の QA タスクに対しては標準的な人間を上回る精度を達成します。高い精度は言語ベースのインタラクションを行う顧客のユーザー体験向上につながり、ひいてはそのようなサービスを展開する企業の収益増加にも結びつきます。

NVIDIA はさらに、TensorRT のオープンソース リポジトリーにおいて、新しいサンプルをいくつかリリースしました。これらのサンプルの目的は、言語ベース (OpenNMT、BERT、Jasper) や画像ベース (Mask-RCNN、Faster-RCNN)、レコメンダー ベース (NCF) のアプリケーションの TensorRT による高速化を容易に開始できるようにすることです。Nsight Systems ツールの最新バージョンを用いると、ディープラーニング アプリケーションのチューニングと最適化を一層押し進めることができます。

TensorRT 6 の特徴

  • 人間を上回る NLU 精度をリアルタイムで達成。新しい最適化機能により、複数の NVIDIA T4 GPU を使った BERT-Large の推論をわずか 5.8 ミリ秒 で実行
  • 対話型 AI アプリ、音声アプリ、画像セグメンテーション アプリを、動的な入力形状に対応した新しい API や最適化機能を用いて容易に高速化
  • 計算ニーズが不安定なオンライン サービスなどのアプリケーションを、動的なバッチサイズへの対応によって効率的に高速化
  • 3 次元畳み込みに対応する新しいレイヤーにより、医療用アプリケーションの画像セグメンテーションにおける推論を、CPU と比べ最大 5 倍のスピードで実行
  • 産業オートメーション アプリケーションを 2D U-Net の最適化によって高速化

TensorRT 6 は TensorRT の製品ページからダウンロードできます。