NVIDIA Maxine がリアルタイムのコミュニケーションを AI で革新

サウンドのギャップを解消

最新の通信のほとんどは、広帯域または超広帯域の音声を使用して行われます。NVIDIA のオーディオ超解像で狭帯域の音声をリアルタイムでアップサンプリングして復元できるため、このテクノロジを効果的に使用することで、従来の電話回線と VoIP をベースとした最新の広帯域通信システムの間の音質のギャップを解消します。

電話会議、コールセンター、ライブストリーミングといったあらゆる種類のリアルタイム通信が、Maxine によって飛躍的に進歩しています。

Maxine は、リリース当初より、ビデオ通信、コンテンツ制作、ライブストリーミングといった分野における多数の世界的大手プロバイダーに採用されています。

Fortune Business Insights の予想では、ビデオ会議の世界市場は、2021 年には約 63 億ドルでしたが、2028 年には約 130 億ドルにまで成長するとのことです。

在宅勤務: 1 つのライフスタイル

在宅勤務 (WFH) への移行は、どの企業でも受け入れている当たり前のこととなり、組織はこの新たな可能性への適応を進めています。

調査会社の Gartner によると、2024 年には企業における会議のうち対面で行われる会議はわずか 4 分の 1 になり、パンデミック前の 60% と比較して減少すると予測しています。

パンデミックのまっただ中にあったこの 2 年間に、人々はハイブリッドな働き方やリモートワークを確立してきました。その中で、米国ではバーチャルコラボレーションが重要な役割を果たしてきました。

しかし、組織は依然として企業文化や職場での経験の保持に努めており、メディアの双方向性の質を高めることへの関心が高まっています。

カクテルパーティー問題を解消する

しかし、時には仕事と家庭生活がぶつかり合うこともあります。その結果、会議には子供が発するバックグラウンドノイズや、屋外での建設作業の音、緊急車両のサイレンが鳴り響くことがたびたび起こり、電話会議の流れが一時的に中断されることがよくあります。

このような音に関する問題はカクテルパーティー問題として知られ、古くから存在するのですが、Maxine はこの問題の解決にも貢献します。AI を利用して不要なバックグラウンドノイズを除去できるため、自宅の作業スペースでも、外出先でも、ユーザーの声をより聞き取ることができます。

Maxine GPUアクセラレーテッドプラットフォームは、カスタマイズ可能な最先端のモデルと統合したエンドツーエンドのディープラーニングパイプラインを提供するため、標準のマイクやカメラで高性能の機能を実現します。

最高の音質で自分の声を届ける

バーチャルアクティビティのオーディオ品質は、バックグラウンドノイズの影響を受けるだけでなく、かぼそい声に聞こえることや、低レベルや中レベルの周波数が失われること、もしくはほとんど聞こえないこともあります。

Maxine は音声をリアルタイムでアップサンプリングすることで、より豊かで深みのある音声を実現します。

Logitech: ヘッドセットと Blue Yeti マイクのオーディオが改善

大手周辺機器メーカーであるLogitechは、意思疎通を改善するために、同社の人気製品であるヘッドセットやマイクに Maxine を実装しています。

Logitech は AI ライブラリを利用して、Maxine を G Hub オーディオドライバー内に直接統合することで、追加のソフトウェアを必要とせずにデバイスとの通信を強化しています。Maxine は NVIDIA RTX GPU 内のパワフルな Tensor コアを活用し、マイク信号のリアルタイム音声処理が可能にしています。

Logitech は現在、G Hub ソフトウェアで Maxine の最先端のノイズ除去機能を活用しています。この機能により、ビデオ会議やライブストリーミングセッションの妨げとなるエコーやファン、キーボードのタイピング、マウスのクリックなどバックグラウンドノイズを取り除くことができます。

Logitech G の GM であるユージャッシュデサイ (Ujesh Desai) 氏は次のように話します。「NVIDIA Maxine により、Logitech G を使うゲーマーはワンクリックでマイク信号をすばやく簡単にクリーンアップして、不要なバックグラウンドノイズを除去できます。G HUB を使えば、マイク信号をテストして Maxine の設定を確認することもできます。」

Tencent Cloud がコンテンツクリエイターにパワーを与える

Tencent Cloud は、NVIDIA Maxine を利用した、クリエイティブな背景をすばやく簡単に追加できるテクノロジを提供することにより、コンテンツクリエイターの制作を支援しています。

NVIDIA Maxine の AI グリーンスクリーン機能により、従来のグリーンスクリーンを必要とせずに前景と背景を高品質に分離し、さらに没入感の高いプレゼンスを作り出すことができます。実際の背景を分離した後は、バーチャル背景に簡単に置き換えることや、ぼかすことで被写界深度の効果を得ることもできます。Tencent Cloud はこの新機能をコンテンツクリエイター向けに、サービスとしてのソフトウェア(Software-as-a-Service) のパッケージとして提供しています。

Tencent Cloud のオーディオおよびビデオプラットフォームでプロダクトセンターのディレクターを務めるバルチャーリー (Vulture Li) 氏は次のように述べています。「NVIDIA Maxine の AI グリーンスクリーンテクノロジは、特別な機材や照明を必要とせずに、より没入感の高い高品質なエクスペリエンスを実現することで、コンテンツクリエイターの制作を支援します」

バーチャル体験がさらに改良

NVIDIA Maxineは、AI によってリアルタイムを実現する最先端のオーディオ、ビデオ、およびAR機能を提供し、これらの機能をカスタマイズ可能なエンドツーエンドのディープラーニングパイプラインに組み込むことができます。

AI 対応の Maxine の SDK により、開発者はオーディオや画像のノイズ除去、超解像、視線補正、3D の人物姿勢推定、翻訳機能といったアプリケーションを作ることができます。

また、Maxine のリアルタイムの文字起こしや翻訳が、さらに多くの言語で対応可能になりました。NVIDIA は GTC で、Maxine による英語、フランス語、ドイツ語、スペイン語の翻訳を実演しました。

Maxine がもたらすこうした効果により、何百万人もの人々が高品質で魅力的なライブストリーミングビデオをあらゆるデバイスで楽しむことができるようになります。

以下のGTCセッションで Maxine について詳しく説明しています。

Put Your Body into It! Easy Talent Tracking in Virtual Environments

最新リリースにより、何百万もの人々が最先端のオーディオ効果を利用可能に