NVIDIA Maxine が リアルタイムのコミュニケーションを AI で革新

投稿者: Rick Champagne

最新リリースにより、何百万もの人々が最先端のオーディオ効果を利用可能に

誰もが自分の声を届けたいと思うものです。また、ビデオ通話やライブ ストリーミングに自宅の作業スペースから参加する人がこれまで以上に増えている中、エコーに起因する一時的な中断や犬の吠え声などのバックグラウンド ノイズに邪魔されない上質な音が、オンライン エクスペリエンスにおける音質向上の鍵となります。

NVIDIA Maxine は、GPU で高速化される AI 対応のソフトウェア開発キットを提供し、開発者は通話品質やユーザー エクスペリエンスを向上させるスケーラブルで低レイテンシのオーディオ効果とビデオ効果のパイプラインを構築できます。

NVIDIA は GTC で、音質改善を目的として、Maxine に音響エコー キャンセレーションと AI ベースのアップサンプリングの機能を追加したことを発表しました。

音響エコー キャンセレーションは、オーディオ ストリームから音響エコーをリアルタイムで除去し、ダブルトーク状態でも音声品質を維持します。AI ベースのテクノロジにより、Maxine は、従来のデジタル信号処理アルゴリズムによるエコー キャンセリングよりも優れた効果を実現します。

オーディオ超解像とは、AI ベースの技術を使用して、高周波数帯域で失われたエネルギーを復元することにより、低帯域幅の音声信号の質を高める技術のことです。Maxine の音声超解像は、8 kHz (狭帯域) から16 kHz (広帯域)、16 kHz から 48 kHz (超広帯域)、および 8 kHz から 48 kHz への音声のアップサンプリングをサポートします。8 kHz などの低いサンプリング レートでは多くの場合、声がこもり、歯擦音などのアーティファクトが強調され、話しが聞き取りづらくなります。

最近の映画やテレビのスタジオでは、元の信号の忠実度を維持しつつ明瞭さを確保するために、音声のレコーディング時に 48 kHz (もしくはそれ以上) のサンプリング レートを使用することが多いです。音声超解像で、磁気テープなどの低帯域幅メディアから派生した古い音声録音の忠実度を復元することもできます。

サウンドのギャップを解消

最新の通信のほとんどは、広帯域または超広帯域の音声を使用して行われます。NVIDIA のオーディオ超解像で狭帯域の音声をリアルタイムでアップサンプリングして復元できるため、このテクノロジを効果的に使用することで、従来の電話回線と VoIP をベースとした最新の広帯域通信システムの間の音質のギャップを解消します。

電話会議、コール センター、ライブ ストリーミングといったあらゆる種類のリアルタイム通信が、Maxine によって飛躍的に進歩しています。

Maxine は、リリース当初より、ビデオ通信、コンテンツ制作、ライブ ストリーミングといった分野における多数の世界的大手プロバイダーに採用されています。

Fortune Business Insights の予想では、ビデオ会議の世界市場は、2021 年には約 63 億ドルでしたが、2028 年には約 130 億ドルにまで成長するとのことです。

在宅勤務: 1 つのライフスタイル

在宅勤務 (WFH) への移行は、どの企業でも受け入れている当たり前のこととなり、組織はこの新たな可能性への適応を進めています。

調査会社の Gartner によると、2024 年には企業における会議のうち対面で行われる会議はわずか 4 分の 1 になり、パンデミック前の 60% と比較して減少すると予測しています。

パンデミックのまっただ中にあったこの 2 年間に、人々はハイブリッドな働き方やリモート ワークを確立してきました。その中で、米国ではバーチャル コラボレーションが重要な役割を果たしてきました。

しかし、組織は依然として企業文化や職場での経験の保持に努めており、メディアの双方向性の質を高めることへの関心が高まっています。

カクテル パーティー問題を解消する

しかし、時には仕事と家庭生活がぶつかり合うこともあります。その結果、会議には子供が発するバックグラウンド ノイズや、屋外での建設作業の音、緊急車両のサイレンが鳴り響くことがたびたび起こり、電話会議の流れが一時的に中断されることがよくあります。

このような音に関する問題はカクテル パーティー問題として知られ、古くから存在するのですが、Maxine はこの問題の解決にも貢献します。AI を利用して不要なバックグラウンド ノイズを除去できるため、自宅の作業スペースでも、外出先でも、ユーザーの声をより聞き取ることができます。

Maxine GPUアクセラレーテッド プラットフォームは、カスタマイズ可能な最先端のモデルと統合したエンドツーエンドのディープラーニング パイプラインを提供するため、標準のマイクやカメラで高性能の機能を実現します。

最高の音質で自分の声を届ける

バーチャル アクティビティのオーディオ品質は、バック グラウンドノイズの影響を受けるだけでなく、かぼそい声に聞こえることや、低レベルや中レベルの周波数が失われること、もしくはほとんど聞こえないこともあります。

Maxine は音声をリアルタイムでアップサンプリングすることで、より豊かで深みのある音声を実現します。

Logitech: ヘッドセットと Blue Yeti マイクのオーディオが改善

大手周辺機器メーカーであるLogitechは、意思疎通を改善するために、同社の人気製品であるヘッドセットやマイクに Maxine を実装しています。

Logitech は AI ライブラリを利用して、Maxine を G Hub オーディオ ドライバー内に直接統合することで、追加のソフトウェアを必要とせずにデバイスとの通信を強化しています。Maxine は NVIDIA RTX GPU 内のパワフルな Tensor コアを活用し、マイク信号のリアルタイム音声処理が可能にしています。

Logitech は現在、G Hub ソフトウェアで Maxine の最先端のノイズ除去機能を活用しています。この機能により、ビデオ会議やライブ ストリーミング セッションの妨げとなるエコーやファン、キーボードのタイピング、マウスのクリックなどバックグラウンド ノイズを取り除くことができます。

Logitech G の GM であるユージャッシュ デサイ (Ujesh Desai) 氏は次のように話します。「NVIDIA Maxine により、Logitech G を使うゲーマーはワン クリックでマイク信号をすばやく簡単にクリーンアップして、不要なバックグラウンド ノイズを除去できます。G HUB を使えば、マイク信号をテストして Maxine の設定を確認することもできます。」

Tencent Cloud がコンテンツ クリエイターにパワーを与える

Tencent Cloud は、NVIDIA Maxine を利用した、クリエイティブな背景をすばやく簡単に追加できるテクノロジを提供することにより、コンテンツ クリエイターの制作を支援しています。

NVIDIA Maxine の AI グリーン スクリーン機能により、従来のグリーン スクリーンを必要とせずに前景と背景を高品質に分離し、さらに没入感の高いプレゼンスを作り出すことができます。実際の背景を分離した後は、バーチャル背景に簡単に置き換えることや、ぼかすことで被写界深度の効果を得ることもできます。Tencent Cloud はこの新機能をコンテンツ クリエイター向けに、サービスとしてのソフトウェア(Software-as-a-Service) のパッケージとして提供しています。

Tencent Cloud のオーディオおよびビデオ プラットフォームでプロダクト センターのディレクターを務めるバルチャー リー (Vulture Li) 氏は次のように述べています。「NVIDIA Maxine の AI グリーン スクリーン テクノロジは、特別な機材や照明を必要とせずに、より没入感の高い高品質なエクスペリエンスを実現することで、コンテンツ クリエイターの制作を支援します」

バーチャル体験がさらに改良

NVIDIA Maxineは、AI によってリアルタイムを実現する最先端のオーディオ、ビデオ、およびAR機能を提供し、これらの機能をカスタマイズ可能なエンドツーエンドのディープラーニング パイプラインに組み込むことができます。

AI 対応の Maxine の SDK により、開発者はオーディオや画像のノイズ除去、超解像、視線補正、3D の人物姿勢推定、翻訳機能といったアプリケーションを作ることができます。

また、Maxine のリアルタイムの文字起こしや翻訳が、さらに多くの言語で対応可能になりました。NVIDIA は GTC で、Maxine による英語、フランス語、ドイツ語、スペイン語の翻訳を実演しました。

Maxine がもたらすこうした効果により、何百万人もの人々が高品質で魅力的なライブストリーミング ビデオをあらゆるデバイスで楽しむことができるようになります。

以下のGTCセッションで Maxine について詳しく説明しています。