NVIDIA Triton が AI 推論の荒波を制する

by Shankar Chandrasekaran · April 15, 2021

Salesforce、Volkswagen、Hugging Faceをはじめとする企業が NVIDIA の推論サーバーを使ってエンタープライズ AI の実装に向けて船出

AI を機能させるのに、三つ又のほこを持ったたくましい海神（ギリシア神話に登場するトリトン）は必要ありません。しかし、自動車メーカーからクラウドサービスプロバイダーまで、Triton と航海に乗り出せば海の変化を感じられると言う企業が増えています。

今週、6 社を超える企業が NVIDIA Triton Inference Serverを使ったディープラーニングの実際の体験を共有しています。このオープンソースソフトウェアは、あらゆるフレームワークで、あらゆる GPU または CPU 上で、あらゆる種類の推論のモデルを実行する方法を簡素化して、AI の実装を実現します。

例えば、GTC のセッションで、Volkswagen Group の AI エンジニアであるファビアンボルマン (Fabian Bormann) 氏は、同社の社内チームと将来のパートナーから集められたソリューションのリポジトリである Computer Vision Model Zoo のバーチャルツアーを行っています。

同社は、Volkswagen Computer Vision Workbench に Triton を統合しており、ユーザーは ONNX、PyTorch、TensorFlow といったフレームワークの違いを気にする必要なく、Model Zoo に対して貢献することができます。ボルマン氏は、GTC でのセッション (セッション＃ E32736) の説明の中で、Triton によるモデルの管理と展開の簡素化が、VW 社の新しい興味深い環境における AI モデルへの取り組みにおいて重要であると述べています。

Salesforceは Triton のベンチマーク結果を評価

CRM (顧客関係管理) ソフトウェアおよびサービスにおけるリーダーである Salesforceは先頃、世界最大規模の AI モデルである、自然言語処理に使用されるTransformerで Triton のパフォーマンスベンチマークを実施しました。

GTCのセッション (セッション＃ S32713) で、Salesforce のシニアリサーチマネージャーのニティスシリスケスカー (Nitish Shirish Keskar) 氏は、「Triton は、パフォーマンスが優れているだけでなく、ダイナミックバッチング、モデル管理、モデル優先順位付けといった各種重要な機能も備えています。また、素早く簡単にセットアップでき、TensorFlow や PyTorch をはじめとする多数のディープラーニングフレームワークに対応しています」と述べています。

ケスカー氏は、最近のブログ記事の中で、音声やテキストの理解に使用される有名な BERT モデルで、Triton が 100 スレッドを同時処理し、遅延を 200 ミリ秒未満に抑えながら、500 ～ 600 QPS (クエリー／秒) を処理できることを検証した作業について説明しています。また、はるかに大規模な CTRL および GPT2-XL モデルで Triton をテストしたところ、ニューラルネットワークノード数が数十億に上るにもかかわらず、Triton は 32 ～ 35 QPS もの驚異的なパフォーマンスをたたき出すことがわかりました。

Hugging Faceとのモデルコラボレーション

Hugging Face は、7,000 種類の自然言語処理 AI モデルにより、5,000 社を超える顧客企業のテキストの要約、翻訳、分析を支援しています。同社の製品ディレクターであるジェフブーディエ (Jeff Boudier) 氏は、GTC (セッション＃ S32003) で、Triton を含むフローのおかげでモデルでの AI 推論が 100% 改善されたことについて説明しています。

ブーディエ氏は、「当社は NVIDIA の緊密な協力により、モデルの実行パフォーマンスを GPU に最適化することができます」と述べています。

Hugging Face は、Triton を NVIDIA の AI モデル最適化ソフトウェアである TensorRT と組み合わせることで、BERT モデルによる推論の処理時間を 1 ミリ秒未満に短縮することを目指しています。「最先端の先を行く、幅広い市場に恩恵をもたらす新たなユースケースにつながるはずです」と同氏は述べています。

AI 推論の大規模展開

American Express は、2 ミリ秒のレイテンシ要件で動作し、1 兆ドルに上る年間取引の中から不正利用をリアルタイムに検出する AI サービスに Triton を使用しています。

スループットに関しては、Microsoftは Azure クラウドサービス上で Triton を使用して、GrammarLink という Microsoft Word のオンラインエディターの裏にいる AI を実行していますが、GrammarLink は年間 5,000 億件ものクエリを処理していると予想されています。

あまり知られていませんが、米国ニューヨークを拠点とする LivePerson は、GM Financial、Home Depot、欧州の携帯電話会社の Orange をはじめとする 1 万 8,000 社の顧客に対話型 AI 機能を提供するクラウドサービスにおいて、数千種類のモデルを Triton で実行することを計画しています。

Triton は、各種フレームワークに基づくモデルを用いて、最大限のスループットとシステム稼働率を保ちながら、さまざまなスタイルの推論を実行するジョブを簡素化します。

さらに、GTC (セッション＃ S31452) では、ロンドンを拠点とする Intelligent Voice の最高技術責任者が、AI 推論に Triton を使用して保険や金融サービスにおける不正を検出する同社の LexIQal システムを紹介します。

その他にも、多くの企業が AI 推論にNVIDIA 製品を使用しています。Triton ソフトウェアのダウンロード件数は、昨年だけでも 5 万件を突破しています。

あらゆる種類の AI 推論ジョブをあらゆる場所で対応

Triton に弾みが付いている理由の 1 つとして、リアルタイム、バッチモード、またはストリーミングサービスとして実行されるものでも、一連または一群のモデルを含むものでも、あらゆる種類の AI 推論ジョブを処理できることが挙げられます。そうした柔軟性により、ユーザーはタスクの種類ごとにカスタム推論サーバーを導入し、管理する必要がありません。

加えて、Triton は推論の実行場所がクラウドサービスであろうと、ローカルデータセンターであろうと、ネットワークのエッジであろうと、処理を GPU 全体に均等に分散させることで高いシステム稼働率を保証します。しかもオープンで、拡張可能なコードにより、ユーザーはそれぞれのニーズに合わせて Triton をカスタマイズできます。

NVIDIA も Triton の改善を続けています。最近追加されたモデルアナライザーは、あらゆるオプションをくまなく分析し、ジョブに最適なバッチサイズや GPU 当たりのインスタンス数をユーザーに提示します。また、TensorFlow または PyTorch でトレーニングされたモデルを検証し、TensorRT 形式に変換するジョブを自動化する新しいツールもあります。このツールは、あらゆるニューラルネットワークフォーマットとの間のモデル変換を今後サポートする予定です。

NVIDIA の推論パートナーに出会う機会

Amazon、Google、Microsoft、Tencentなどは、自社のクラウドサービスで Triton をサポートしています。また、Allegro、Seldon、Red Hat などの企業は、AI のために DevOps を拡張した MLOps を含むワークフロー向けのエンタープライズデータセンター用ソフトウェアで Triton をサポートしています。

GTC (セッション＃ S33118) では、Arm が、エッジゲートウェイで推論を直接実行するニューラルネットワークソフトウェアの一部として、どう Triton を適応させたのかを解説しています。さらに、Dell EMC の 2 人のエンジニアが、Triton を使用してビデオ分析のパフォーマンスを 6 倍に向上させた方法を紹介するほか (セッション＃ S31437)、NetApp が自社の半導体ストレージアレイへの Triton の統合作業について解説しています (セッション＃ S32187)。

さらなる詳細については GTC にご登録いただき、NVIDIA のエキスパートによる、ディープラーニング推論における Tritonの 2 つの入門セッション (S31114、SE2690) のいずれかをご覧ください。