新しい NVIDIA Maxine クラウド ネイティブ アーキテクチャにより、オーディオとビデオの品質を大幅に向上

投稿者: Delilah Liu

AI マイクロサービスへの早期アクセスにより、クラウドでプレミアム品質の通信を実現

NVIDIA Maxine の最新リリースが、リアルタイムのオーディオとビデオの通信を新たな高みに引き上げようとしています。ビデオ会議、顧客のサービス センターへの通話、あるいはライブ配信のいずれであっても、Maxine はクリアな通信を実現し、仮想インタラクションを向上させます。

NVIDIA Maxine は、GPU で高速化された AI ソフトウェア開発ツールキット (SDK)、ならびにオーディオ、ビデオおよび拡張現実 (AR) エフェクトをリアルタイムで向上させ、最適化および高速化された AI 機能を展開するためのクラウドネイティブ マイクロサービスで構成されています。

また、Maxine の最先端のモデルを使えば、エンドユーザーは高価な機器を使わずにオーディオとビデオの品質を高めることができます。NVIDIA AI を活用したテクノロジにより、このような高品質のエフェクトが、標準的なマイクとカメラ機材で実現できるようになります。

GTC において、NVIDIA はクラウドネイティブ マイクロサービス向けに Maxine のアーキテクチャを再構成し、Maxine のオーディオ エフェクト マイクロサービスの早期 アクセス リリースを開始すると発表しました。また、話し手フォーカスと表情推定を含む Maxine SDK の新機能、ならびにアイコンタクト機能の一般公開が明らかになりました。また、NVIDIA Maxine には、既存の SDK 機能の強化版も含まれるようになっています。

Maxine がクラウドネイティブに

Maxine のクラウド ネイティブ マイクロ サービスにより、開発者はリアルタイム AI アプリケーションを構築することができます。マイクロサービスはクラウドで個別に管理し、シームレスに展開できるため、開発期間を短縮することができます。

早期アクセスで利用可能な音声エフェクト マイクロサービスには、以下のような最先端のオーディオ機能が含まれます。

  • 周囲ノイズ除去: AI モデルを使って、話し手の自然な声を保護しながら、一般的な周囲ノイズを除去します。
  • ルーム エコー除去: AI モデルを使って、オーディオから反響音を除去し、話し手の声を明瞭に保ちます。
  • オーディオ超解像: オーディオ信号の時間的な解像度を高めることで、オーディオ品質を向上させます。現在、この機能は、8 kHz から 16 kHz へのアップサンプリング、および 16 kHz から 48 kHz へのアップサンプリングに対応しています。
  • 音響エコー キャンセレーション: オーディオ入力ストリームからリアルタイムに音響デバイス エコーを除去し、オーディオ同士の衝突とダブルトークを防ぎます。AI を活用したテクノロジにより、従来のデジタル信号処理よりエコー除去をより効果的に行うことができます。

エンタープライズ向けビデオ会議とコラボレーション ソリューションの大手プロバイダーである Pexip では、NVIDIA AI テクノロジを使い、今の時代に働く人々にあった先進の機能によって、バーチャル会議を新たなレベルへと引き上げています。

Pexip のストラテジック アライアンス担当バイス プレジデントのエディー クリフトン (Eddie Clifton) 氏は、次のように話しています。「Maxine のクラウドネイティブ マイクロサービス対応により、NVIDIA の先進の AI テクノロジと当社独自のサーバーサイド アーキテクチャをより簡単に組み合わせられるようになるでしょう。それによって、Pexip のチームは、バーチャル会議の体験を向上させることができるようになります」

早期アクセスのお申込みはこちらです。

SDK の拡張機能を活用する

Maxine には 3 つの GPU アクセラレーテッド SDK があり、オーディオ、ビデオおよび AR のエフェクトという、AI によってリアルタイムの通信を再発明します。

オーディオ エフェクト SDK は、マルチエフェクトで、低遅延の、AI を活用したオーディオ品質向上アルゴリズムを提供します。スピーカー フォーカスは、早期アクセスで利用可能な新機能で、前景および背景のスピーカーのオーディオ トラックを分離し、それぞれの音声を聞きやすくします。さらに、オーディオ超解像 SDK の機能がアップデートされており、品質が向上しています。

ビデオ エフェクト SDK では、標準的なウェブカメラの入力に、AI を活用したビデオ エフェクトを作成します。人の姿を分割し、AI を活用して背景の除去、置き換え、およびぼかしを適用するバーチャル背景機能は、時間的な安定性が向上するようにアップデートされています。

また、AR SDK により、標準的なウェブカメラからのフィードで、AI を活用した、リアルタイムの 3D フェイス トラッキングと体の姿勢推定が可能になります。その最新の機能は、以下のとおりです。

  • アイコンタクト : 視線を推定し、カメラに合わせることで、アイコンタクトをシミュレーションします。
  • 顔の表情推定 : 顔をトラッキングし、対象がどのような表情をしているのかを推定します。

以下の AR 機能がアップデートされています。

  • 体の姿勢推定: 人間の体の 34 のキー ポイントを 2D および 3D で予測およびトラッキングします。新たに、複数人のトラッキングに対応しました。
  • フェイス ランドマーク トラッキング: 126 のキー ポイントを使い、顔の特徴と輪郭を認識します。頭の動きと表情によって変わる頭の姿勢と顔の変形を 3 自由度でリアルタイムにトラッキングします。さらに高品質なトラッキングが可能となる品質モードが利用可能になりました。
  • フェイス メッシュ: 人間の顔を最大 3,000 の頂点の 3D メッシュ、6 自由度で表現します。米国クリエイティブ テクノロジ研究所のモーフィング可能な 3D モデルが利用可能になりました。

Maxine SDK をお試しください。Maxine のエフェクトを直接体験するには、NVIDIA Broadcast アプリをダウンロードしてください。

AI のパワーで最先端のエフェクトを体験

Maxine SDK とマイクロサービスは、お客様の既存のインフラストラクチャに組み込むことができる低遅延のさまざまな AI エフェクトを提供します。開発者は、Maxine を通じて最先端の AI 機能を利用することができます。このテクノロジは NVIDIA AI プラットフォームに組み込まれており、ワールドクラスのトレーニング済みモデルが利用できるため、ユーザーはプレミアムなオーディオおよびビデオの品質機能を作成、カスタマイズおよび展開できるようになります。

Maxine は、インタラクティブなアバターの構築、カスタマイズおよび展開を行う開発者向けのクラウドベースの AI モデルとサービスのコレクションであるNVIDIA Omniverse Avatar Cloud Engine にも搭載されています。Maxine のカスタマイズ可能なクラウドネイティブ マイクロサービスは、AI エフェクト パイプラインで単独で使用することができます。Maxine は、オンプレミス、クラウドあるいはエッジに展開することができます。

NVIDIA Maxine および他のテクノロジ ブレイクスルーについての詳しい情報は、NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) の基調講演をご視聴ください。