NVIDIA、コンピュータビジョンクラウドアプリケーションを加速するオープンソースプロジェクトを発表

CV-CUDA は高速化された画像の前処理と後処理のアルゴリズムとツールを組み合わせ、同じコストで 10 倍の数の画像処理が可能に

NVIDIA は、大規模な画像処理をより高速かつ効率的にすることが可能な、コンピュータビジョンと画像処理のエンドツーエンドのアクセラレーテッドパイプラインを構築するためのオープンソースライブラリである CV-CUDA を発表しました。

インターネットトラフィックの大部分はビデオです。こうしたビデオは、AI による特殊効果とコンピュータグラフィックスによってますます強化されていくでしょう。

この複雑さに加え、急速に成長しているソーシャルメディアとビデオ共有サービスは、AI ベースの画像処理とコンピュータビジョンパイプラインのクラウドコンピューティングコストとボトルネックの増大に直面しています。

CV-CUDA は、リライティング、リポージング、背景のぼかし、超解像などの AI 特殊効果を高速化します。

NVIDIA GPU は、すでに AI コンピュータビジョンパイプラインの推論部分を高速化しています。しかし、従来のコンピュータビジョンツールを使用した前処理と後処理が、時間とコンピューティング能力を浪費しています。

CV-CUDA は、50 を超えるハイパフォーマンスコンピュータビジョンアルゴリズム、カスタムカーネルの実装を容易にする開発フレームワーク、および AI パイプラインのボトルネックを取り除くためのゼロコピーインターフェースを開発者に提供します。

その結果、スループットが向上し、クラウドコンピューティングのコストが削減されます。CV-CUDA は、1 つの GPU で 10 倍のストリームの処理が可能です。

これらすべてにより、開発者はビデオコンテンツの制作、3D ワールド、画像ベースのレコメンダーシステム、画像認識、およびビデオ会議に取り組む際に、はるかに迅速に作業を進めることができます。

ビデオコンテンツ制作プラットフォームは、毎日何百万ものビデオストリームを処理、強化、調整し、モバイルベースのユーザーがどの電話でもアプリを実行して最高のエクスペリエンスを得られるようにする必要があります。

3D ワールドまたはメタバースアプリケーションを構築する場合、CV-CUDA は、3D ワールドとその構成要素の構築または拡張を支援するタスクを有効にすることが期待されています。
画像の理解と認識では、CV-CUDA はハイパースケールで動作するパイプラインを大幅に高速化し、モバイルユーザーが洗練された反応の良い画像認識アプリケーションを楽しむことができるようにします。
さらにビデオ会議では、CV-CUDA は高度な拡張現実ベースの機能をサポートすることができます。これらの機能には、多数の前処理および後処理ステップを必要とする複雑な AI パイプラインが含まれる場合があります。

CV-CUDA は、手動で最適化された CUDA カーネルを介して前処理と後処理のパイプラインを高速化し、C/C++、Python、および PyTorch などの一般的なディープラーニングフレームワークにネイティブに統合します。

CV-CUDA は、3D ワークフローための仮想世界シミュレーションおよびコラボレーションプラットフォームである NVIDIA Omniverse で AI ワークフローを加速できるコアテクノロジの 1 つとなるでしょう。

開発者には 12 月にコードへのアーリーアクセスが可能で、3 月にベータ版のリリースが予定されています。

詳細については、developer.nvidia.com/cv-cuda-early-access のアーリーアクセスに関するページをご覧ください。

Featured image credit: Factory42/BBC Studio