NVIDIA Triton が AI 推論の荒波を制する

投稿者: Shankar Chandrasekaran

Salesforce、Volkswagen、Hugging Faceをはじめとする企業が NVIDIA の推論サーバーを使ってエンタープライズ AI の実装に向けて船出

AI を機能させるのに、三つ又のほこを持ったたくましい海神(ギリシア神話に登場するトリトン)は必要ありません。しかし、自動車メーカーからクラウド サービス プロバイダーまで、Triton と航海に乗り出せば海の変化を感じられると言う企業が増えています。

今週、6 社を超える企業が NVIDIA Triton Inference Serverを使ったディープラーニングの実際の体験を共有しています。このオープンソース ソフトウェアは、あらゆるフレームワークで、あらゆる GPU または CPU 上で、あらゆる種類の推論のモデルを実行する方法を簡素化して、AI の実装を実現します。

例えば、GTC のセッションで、Volkswagen Group の AI エンジニアであるファビアン ボルマン (Fabian Bormann) 氏は、同社の社内チームと将来のパートナーから集められたソリューションのリポジトリである Computer Vision Model Zoo のバーチャル ツアーを行っています。

同社は、Volkswagen Computer Vision Workbench に Triton を統合しており、ユーザーは ONNX、PyTorch、TensorFlow といったフレームワークの違いを気にする必要なく、Model Zoo に対して貢献することができます。ボルマン氏は、GTC でのセッション (セッション# E32736) の説明の中で、Triton によるモデルの管理と展開の簡素化が、VW 社の新しい興味深い環境における AI モデルへの取り組みにおいて重要であると述べています。

Salesforceは Triton のベンチマーク結果を評価

CRM (顧客関係管理) ソフトウェアおよびサービスにおけるリーダーである Salesforceは先頃、世界最大規模の AI モデルである、自然言語処理に使用されるTransformerで Triton のパフォーマンス ベンチマークを実施しました。

GTCのセッション (セッション# S32713) で、Salesforce のシニア リサーチ マネージャーのニティス シリス ケスカー (Nitish Shirish Keskar) 氏は、「Triton は、パフォーマンスが優れているだけでなく、ダイナミック バッチング、モデル管理、モデル優先順位付けといった各種重要な機能も備えています。また、素早く簡単にセットアップでき、TensorFlow や PyTorch をはじめとする多数のディープラーニング フレームワークに対応しています」と述べています。

ケスカー氏は、最近のブログ記事の中で、音声やテキストの理解に使用される有名な BERT モデルで、Triton が 100 スレッドを同時処理し、遅延を 200 ミリ秒未満に抑えながら、500 ~ 600 QPS (クエリー/秒) を処理できることを検証した作業について説明しています。また、はるかに大規模な CTRL および GPT2-XL モデルで Triton をテストしたところ、ニューラルネットワーク ノード数が数十億に上るにもかかわらず、Triton は 32 ~ 35 QPS もの驚異的なパフォーマンスをたたき出すことがわかりました。

Hugging Faceとのモデル コラボレーション

Hugging Face は、7,000 種類の自然言語処理 AI モデルにより、5,000 社を超える顧客企業のテキストの要約、翻訳、分析を支援しています。同社の製品ディレクターであるジェフ ブーディエ (Jeff Boudier) 氏は、GTC (セッション# S32003) で、Triton を含むフローのおかげでモデルでの AI 推論が 100% 改善されたことについて説明しています。

ブーディエ氏は、「当社は NVIDIA の緊密な協力により、モデルの実行パフォーマンスを GPU に最適化することができます」と述べています。

Hugging Face は、Triton を NVIDIA の AI モデル最適化ソフトウェアである TensorRT と組み合わせることで、BERT モデルによる推論の処理時間を 1 ミリ秒未満に短縮することを目指しています。「最先端の先を行く、幅広い市場に恩恵をもたらす新たなユースケースにつながるはずです」と同氏は述べています。

AI 推論の大規模展開

American Express は、2 ミリ秒 のレイテンシ要件で動作し、1 兆ドルに上る年間取引の中から不正利用をリアルタイムに検出する AI サービスに Triton を使用しています。

スループットに関しては、Microsoftは Azure クラウド サービス上で Triton を使用して、GrammarLink という Microsoft Word のオンライン エディターの裏にいる AI を実行していますが、GrammarLink は年間 5,000 億件ものクエリを処理していると予想されています。

あまり知られていませんが、米国ニューヨークを拠点とする LivePerson は、GM Financial、Home Depot、欧州の携帯電話会社の Orange をはじめとする 1 万 8,000 社の顧客に対話型 AI 機能を提供するクラウド サービスにおいて、数千種類のモデルを Triton で実行することを計画しています。

Triton は、各種フレームワークに基づくモデルを用いて、最大限のスループットとシステム稼働率を保ちながら、さまざまなスタイルの推論を実行するジョブを簡素化します。

さらに、GTC (セッション# S31452) では、ロンドンを拠点とする Intelligent Voice の最高技術責任者が、AI 推論に Triton を使用して保険や金融サービスにおける不正を検出する同社の LexIQal システムを紹介します。

その他にも、多くの企業が AI 推論にNVIDIA 製品を使用しています。Triton ソフトウェアのダウンロード件数は、昨年だけでも 5 万件を突破しています。

あらゆる種類の AI 推論ジョブをあらゆる場所で対応

Triton に弾みが付いている理由の 1 つとして、リアルタイム、バッチモード、またはストリーミング サービスとして実行されるものでも、一連または一群のモデルを含むものでも、あらゆる種類の AI 推論ジョブを処理できることが挙げられます。そうした柔軟性により、ユーザーはタスクの種類ごとにカスタム推論サーバーを導入し、管理する必要がありません。

加えて、Triton は推論の実行場所がクラウド サービスであろうと、ローカル データセンターであろうと、ネットワークのエッジであろうと、処理を GPU 全体に均等に分散させることで高いシステム稼働率を保証します。しかもオープンで、拡張可能なコードにより、ユーザーはそれぞれのニーズに合わせて Triton をカスタマイズできます。

NVIDIA も Triton の改善を続けています。最近追加されたモデル アナライザーは、あらゆるオプションをくまなく分析し、ジョブに最適なバッチ サイズや GPU 当たりのインスタンス数をユーザーに提示します。また、TensorFlow または PyTorch でトレーニングされたモデルを検証し、TensorRT 形式に変換するジョブを自動化する新しいツールもあります。このツールは、あらゆるニューラルネットワーク フォーマットとの間のモデル変換を今後サポートする予定です。

NVIDIA の推論パートナーに出会う機会

Amazon、Google、Microsoft、Tencentなどは、自社のクラウド サービスで Triton をサポートしています。また、Allegro、Seldon、Red Hat などの企業は、AI のために DevOps を拡張した MLOps を含むワークフロー向けのエンタープライズ データセンター用ソフトウェアで Triton をサポートしています。

GTC (セッション# S33118) では、Arm が、エッジ ゲートウェイで推論を直接実行するニューラルネットワーク ソフトウェアの一部として、どう Triton を適応させたのかを解説しています。さらに、Dell EMC の 2 人のエンジニアが、Triton を使用してビデオ分析のパフォーマンスを 6 倍に向上させた方法を紹介するほか (セッション# S31437)、NetApp が自社の半導体ストレージ アレイへの Triton の統合作業について解説しています (セッション# S32187)。

さらなる詳細については GTC にご登録いただき、NVIDIA のエキスパートによる、ディープラーニング推論における Tritonの 2 つの入門セッション (S31114、SE2690) のいずれかをご覧ください。