CV-CUDA は高速化された画像の前処理と後処理のアルゴリズムとツールを組み合わせ、同じコストで 10 倍の数の画像処理が可能に
NVIDIA は、大規模な画像処理をより高速かつ効率的にすることが可能な、コンピュータ ビジョンと画像処理のエンドツーエンドのアクセラレーテッド パイプラインを構築するためのオープンソース ライブラリである CV-CUDA を発表しました。
インターネット トラフィックの大部分はビデオです。こうしたビデオは、AI による特殊効果とコンピュータ グラフィックスによってますます強化されていくでしょう。
この複雑さに加え、急速に成長しているソーシャル メディアとビデオ共有サービスは、AI ベースの画像処理とコンピュータ ビジョン パイプラインのクラウド コンピューティング コストとボトルネックの増大に直面しています。
CV-CUDA は、リライティング、リポージング、背景のぼかし、超解像などの AI 特殊効果を高速化します。
NVIDIA GPU は、すでに AI コンピュータ ビジョン パイプラインの推論部分を高速化しています。しかし、従来のコンピュータ ビジョン ツールを使用した前処理と後処理が、時間とコンピューティング能力を浪費しています。
CV-CUDA は、50 を超えるハイパフォーマンス コンピュータ ビジョン アルゴリズム、カスタム カーネルの実装を容易にする開発フレームワーク、および AI パイプラインのボトルネックを取り除くためのゼロコピー インターフェースを開発者に提供します。
その結果、スループットが向上し、クラウド コンピューティングのコストが削減されます。CV-CUDA は、1 つの GPU で 10 倍のストリームの処理が可能です。
これらすべてにより、開発者はビデオ コンテンツの制作、3D ワールド、画像ベースのレコメンダー システム、画像認識、およびビデオ会議に取り組む際に、はるかに迅速に作業を進めることができます。
ビデオ コンテンツ制作プラットフォームは、毎日何百万ものビデオ ストリームを処理、強化、調整し、モバイル ベースのユーザーがどの電話でもアプリを実行して最高のエクスペリエンスを得られるようにする必要があります。
- 3D ワールドまたはメタバース アプリケーションを構築する場合、CV-CUDA は、3D ワールドとその構成要素の構築または拡張を支援するタスクを有効にすることが期待されています。
- 画像の理解と認識では、CV-CUDA はハイパースケールで動作するパイプラインを大幅に高速化し、モバイル ユーザーが洗練された反応の良い画像認識アプリケーションを楽しむことができるようにします。
- さらにビデオ会議では、CV-CUDA は高度な拡張現実ベースの機能をサポートすることができます。これらの機能には、多数の前処理および後処理ステップを必要とする複雑な AI パイプラインが含まれる場合があります。
CV-CUDA は、手動で最適化された CUDA カーネルを介して前処理と後処理のパイプラインを高速化し、C/C++、Python、および PyTorch などの一般的なディープラーニング フレームワークにネイティブに統合します。
CV-CUDA は、3D ワークフローための仮想世界シミュレーションおよびコラボレーション プラットフォームである NVIDIA Omniverse で AI ワークフローを加速できるコア テクノロジの 1 つとなるでしょう。
開発者には 12 月にコードへのアーリー アクセスが可能で、3 月にベータ版のリリースが予定されています。
詳細については、developer.nvidia.com/cv-cuda-early-access のアーリー アクセスに関するページをご覧ください。
Featured image credit: Factory42/BBC Studio