新しい NVIDIA Maxine クラウドネイティブアーキテクチャにより、オーディオとビデオの品質を大幅に向上

by Delilah Liu · September 28, 2022

AI マイクロサービスへの早期アクセスにより、クラウドでプレミアム品質の通信を実現

NVIDIA Maxine の最新リリースが、リアルタイムのオーディオとビデオの通信を新たな高みに引き上げようとしています。ビデオ会議、顧客のサービスセンターへの通話、あるいはライブ配信のいずれであっても、Maxine はクリアな通信を実現し、仮想インタラクションを向上させます。

NVIDIA Maxine は、GPU で高速化された AI ソフトウェア開発ツールキット (SDK)、ならびにオーディオ、ビデオおよび拡張現実 (AR) エフェクトをリアルタイムで向上させ、最適化および高速化された AI 機能を展開するためのクラウドネイティブマイクロサービスで構成されています。

また、Maxine の最先端のモデルを使えば、エンドユーザーは高価な機器を使わずにオーディオとビデオの品質を高めることができます。NVIDIA AI を活用したテクノロジにより、このような高品質のエフェクトが、標準的なマイクとカメラ機材で実現できるようになります。

GTC において、NVIDIA はクラウドネイティブマイクロサービス向けに Maxine のアーキテクチャを再構成し、Maxine のオーディオエフェクトマイクロサービスの早期アクセスリリースを開始すると発表しました。また、話し手フォーカスと表情推定を含む Maxine SDK の新機能、ならびにアイコンタクト機能の一般公開が明らかになりました。また、NVIDIA Maxine には、既存の SDK 機能の強化版も含まれるようになっています。

Maxine がクラウドネイティブに

Maxine のクラウドネイティブマイクロサービスにより、開発者はリアルタイム AI アプリケーションを構築することができます。マイクロサービスはクラウドで個別に管理し、シームレスに展開できるため、開発期間を短縮することができます。

早期アクセスで利用可能な音声エフェクトマイクロサービスには、以下のような最先端のオーディオ機能が含まれます。

周囲ノイズ除去: AI モデルを使って、話し手の自然な声を保護しながら、一般的な周囲ノイズを除去します。
ルームエコー除去: AI モデルを使って、オーディオから反響音を除去し、話し手の声を明瞭に保ちます。
オーディオ超解像: オーディオ信号の時間的な解像度を高めることで、オーディオ品質を向上させます。現在、この機能は、8 kHz から 16 kHz へのアップサンプリング、および 16 kHz から 48 kHz へのアップサンプリングに対応しています。
音響エコーキャンセレーション: オーディオ入力ストリームからリアルタイムに音響デバイスエコーを除去し、オーディオ同士の衝突とダブルトークを防ぎます。AI を活用したテクノロジにより、従来のデジタル信号処理よりエコー除去をより効果的に行うことができます。

エンタープライズ向けビデオ会議とコラボレーションソリューションの大手プロバイダーである Pexip では、NVIDIA AI テクノロジを使い、今の時代に働く人々にあった先進の機能によって、バーチャル会議を新たなレベルへと引き上げています。

Pexip のストラテジックアライアンス担当バイスプレジデントのエディークリフトン (Eddie Clifton) 氏は、次のように話しています。「Maxine のクラウドネイティブマイクロサービス対応により、NVIDIA の先進の AI テクノロジと当社独自のサーバーサイドアーキテクチャをより簡単に組み合わせられるようになるでしょう。それによって、Pexip のチームは、バーチャル会議の体験を向上させることができるようになります」

早期アクセスのお申込みはこちらです。

SDK の拡張機能を活用する

Maxine には 3 つの GPU アクセラレーテッド SDK があり、オーディオ、ビデオおよび AR のエフェクトという、AI によってリアルタイムの通信を再発明します。

オーディオエフェクト SDK は、マルチエフェクトで、低遅延の、AI を活用したオーディオ品質向上アルゴリズムを提供します。スピーカーフォーカスは、早期アクセスで利用可能な新機能で、前景および背景のスピーカーのオーディオトラックを分離し、それぞれの音声を聞きやすくします。さらに、オーディオ超解像 SDK の機能がアップデートされており、品質が向上しています。

ビデオエフェクト SDK では、標準的なウェブカメラの入力に、AI を活用したビデオエフェクトを作成します。人の姿を分割し、AI を活用して背景の除去、置き換え、およびぼかしを適用するバーチャル背景機能は、時間的な安定性が向上するようにアップデートされています。

また、AR SDK により、標準的なウェブカメラからのフィードで、AI を活用した、リアルタイムの 3D フェイストラッキングと体の姿勢推定が可能になります。その最新の機能は、以下のとおりです。

アイコンタクト : 視線を推定し、カメラに合わせることで、アイコンタクトをシミュレーションします。
顔の表情推定 : 顔をトラッキングし、対象がどのような表情をしているのかを推定します。

以下の AR 機能がアップデートされています。

体の姿勢推定: 人間の体の 34 のキーポイントを 2D および 3D で予測およびトラッキングします。新たに、複数人のトラッキングに対応しました。
フェイスランドマークトラッキング: 126 のキーポイントを使い、顔の特徴と輪郭を認識します。頭の動きと表情によって変わる頭の姿勢と顔の変形を 3 自由度でリアルタイムにトラッキングします。さらに高品質なトラッキングが可能となる品質モードが利用可能になりました。
フェイスメッシュ: 人間の顔を最大 3,000 の頂点の 3D メッシュ、6 自由度で表現します。米国クリエイティブテクノロジ研究所のモーフィング可能な 3D モデルが利用可能になりました。

Maxine SDK をお試しください。Maxine のエフェクトを直接体験するには、NVIDIA Broadcast アプリをダウンロードしてください。

AI のパワーで最先端のエフェクトを体験

Maxine SDK とマイクロサービスは、お客様の既存のインフラストラクチャに組み込むことができる低遅延のさまざまな AI エフェクトを提供します。開発者は、Maxine を通じて最先端の AI 機能を利用することができます。このテクノロジは NVIDIA AI プラットフォームに組み込まれており、ワールドクラスのトレーニング済みモデルが利用できるため、ユーザーはプレミアムなオーディオおよびビデオの品質機能を作成、カスタマイズおよび展開できるようになります。

Maxine は、インタラクティブなアバターの構築、カスタマイズおよび展開を行う開発者向けのクラウドベースの AI モデルとサービスのコレクションであるNVIDIA Omniverse Avatar Cloud Engine にも搭載されています。Maxine のカスタマイズ可能なクラウドネイティブマイクロサービスは、AI エフェクトパイプラインで単独で使用することができます。Maxine は、オンプレミス、クラウドあるいはエッジに展開することができます。

NVIDIA Maxine および他のテクノロジブレイクスルーについての詳しい情報は、NVIDIA の創業者/CEO であるジェンスンフアン (Jensen Huang) の基調講演をご視聴ください。