NVIDIA、ビデオ編集のために Maxine を拡張、3D バーチャル会議の研究を披露

by Rick Champagne · August 10, 2023

Maxine の製品版が NVIDIA AI Enterprise で利用可能に。研究成果のデモでは、3D テクノロジがビデオコミュニケーションをどのように強化できるかを紹介。

NVIDIA Maxine の助けを借りることで、プロフェッショナル、チーム、クリエイターなどが AI の力を利用し、標準のマイクやウェブカメラを使用した場合でも、高品質のオーディオおよびビデオのエフェクトが作成できます。

GPU アクセラレーションに対応したソフトウェア開発キットとクラウドネイティブのマイクロサービスのスイートにより、ユーザーはリアルタイムコミュニケーションサービスとプラットフォームにおいて、オーディオ、ビデオ、拡張現実のエフェクトを強化する AI 機能を展開することができます。Maxine はビデオ編集向けに機能を拡張し、チームがビデオコミュニケーションの新たな高みに到達するのを可能にします。

さらに、今週の SIGGRAPH カンファレンスでの NVIDIA Researchのデモでは、AI が 3D 機能を使用してビデオ会議をいかに次のレベルに引き上げるかが紹介されています。

NVIDIA Maxine の機能がビデオ編集に拡張

無線接続により、人々はこれまで以上に多くの場所からバーチャル会議に参加できるようになりました。通常、参加者が移動中または接続状態の悪い場所にいる場合、音声とビデオの品質は大きく影響を受けます。

Background Noise Removal (背景ノイズ除去)、Super Resolution (超解像)、Eye Contact (アイコンタクト) などの高度でリアルタイムの Maxine 機能は、リモートのユーザーが対人コミュニケーションの体験を向上させることを可能にします。

さらに、Maxine はビデオ編集向けにも使用可能になりました。NVIDIA のパートナーは、ビデオ会議を向上させるのと同じ Maxine 機能を使用して、このプロフェッショナルなワークフローを変革しています。ビデオを編集の目的は、セールストークであろうとウェビナーであろうと、可能な限り幅広い視聴者を魅了することです。Maxine を使用すると、プロフェッショナルはオーディオ信号とビデオ信号を強化する AI 機能を活用できます。

Maxine を使用すると、話者は画面から目を離してメモや台本を見ていても、視線はカメラを直接見ているかのように保つことができます。ユーザーは低解像度でビデオを撮影し、後で品質を向上させることもできます。さらに、Maxine を使用すると、さまざまな言語でビデオを録画し、そのビデオを英語で書きだすことができます。

今年早期アクセスでリリースされる Maxine の機能は次の通りです。

Interpreter (通訳): 中国語、ロシア語、フランス語、ドイツ語、スペイン語を英語に翻訳し、ユーザーが英語を話している様子をアニメーションで表示します。
Voice Font (音声フォント): ユーザーが話者の声の特徴を適用し、オーディオ出力にマッピングできるようにします。
Audio Super Resolution (オーディオ超解像): オーディオ信号の時間分解を高め、帯域幅を拡張することでオーディオ品質を向上させます。現在、8,000Hz から 16,000Hz および 16,000Hz から 48,000Hz のアップサンプリングをサポートしています。この機能も更新され、遅延が 50% 以上削減され、スループットが最大 2 倍向上しました。
Maxine Client: Maxine のマイクロサービスの AI 機能を PC 上のビデオ会議セッションにもたらします。このアプリケーションは低遅延ストリーミング向けに最適化されており、すべての GPU コンピューティング要件にクラウドを使用します。シンクライアントは今秋 Windows で利用可能になり、追加の OS サポートも予定されています。

Maxine はクラウド、オンプレミス、またはエッジに導入できるため、ほぼどこからでも高品質の通信にアクセスできます。

ビデオ会議を新たな高みへ

多くのパートナーや顧客が Maxine を使用した高品質のビデオ会議や編集を体験しています。Maxine の 2 つの機能である Eye Contactと Live Portrait が、NVIDIA AI Enterprise ソフトウェアプラットフォームの製品リリースで利用できるようになりました。Eye Contact は、ユーザーの視線を推定してカメラに合わせることで、カメラとの直接的なアイコンタクトをシミュレーションします。また、Live Portrait は、ライブビデオフィードを通じて、人の肖像写真をアニメーション化します。

ソフトウェア会社 Descript は、ドキュメントやスライドと並んで、ビデオを情報伝達のツールキットの標準にすることを目指しています。NVIDIA Maxine を使用すると、Descript を使用するプロフェッショナルや初心者は、AI 機能にアクセスしてビデオコンテンツのワークフローを改善できます。

Descript のビジネスおよび企業開発責任者の Jay LeBoeuf 氏は次のように語っています。「NVIDIA Maxine の Eye Contact 機能を使用することで、ユーザーは台本を暗記したり、退屈なビデオを撮り直したりする必要がなくなります。毎回台本に集中しながらも、画面上で完璧な存在感を保つことができます」

Reincubate の Camo アプリは、人々がすでに所有しているハードウェアとデバイスを活用して、優れたビデオへのアクセスを拡大することを目指しています。これは、ユーザーが画像をより詳細に制御できるようにし、ビデオエフェクトと変換のための強力で効率的な処理パイプラインを実装することで実現しています。NVIDIA Maxine によって可能になるテクノロジを使用して、Camo はユーザーに驚異的なビデオ制作をより簡単に実現する方法を提供します。

Reincubate の創業者であり CEO の Aidan Fitzpatrick 氏は次のように述べています。「NVIDIA Maxine を Camo に統合することは、これまでになく簡単でした。これにより、ユーザーの RTX GPU から即座に高いパフォーマンスを得られるようになりました。Maxine のおかげで、チームはより迅速かつ自信を持って進めることができました」

Quicklink の Cre8 は、プロフェッショナルなブランド制作、バーチャルおよびハイブリッドのライブイベントを作成するための強力なビデオ制作プラットフォームです。ユーザーフレンドリーなインターフェイスは、直感的なデザインで、プロ仕様の作品を構築、編集、カスタマイズするために必要なすべてのツールを提供しています。Cre8 には NVIDIA Maxine テクノロジが組み込まれており、ビデオ制作の生産性と品質を最大化し、オペレーターに完全な制御を提供します。

Quicklink の CEO、Richard Rees 氏は次のように述べています。「Quicklink Cre8 は現在、地球上で最も先進的なビデオ制作プラットフォームを提供しています。NVIDIA Maxine を使用することで、Auto Framing (自動フレーム)、Video Noise Removal (ビデオノイズ除去)、Noise and Echo Cancellation (ノイズおよびエコー除去)、Eye Contact Simulation (アイコンタクトシミュレーション) などの高度な機能を追加することができました」

ロサンゼルスを拠点とする企業 gemelo.ai は、ユーザーの音声、コンテンツ、インタラクションを拡張できる AI ツインを作成するためのプラットフォームを提供しています。Maxine の Live Portrait 機能を使用することで、gemelo.ai チームは、スケーリングされパーソナライズされたコンテンツと 1 対 1 のインタラクションのための新たな機会を生み出すことが可能となりました。

gemelo.ai の CEO である Paul Jaski氏は次のように語っています。「Live Portrait のリアリズムは革新的であり、当社の AI ツインの可能性の新たな領域を解き放ちました。当社の顧客は、アプリ、ウェブサイト、複合現実体験にわたるコンテンツ制作とインタラクションにおける無制限のスケーラビリティというスーパーパワーを備えた、信じられないほどリアルなデジタルツインを設計および展開できるようになりました」

NVIDIA Research が 3D ビデオが没入型のコミュニケーションをどう強化するかを披露

Maxine の高度な機能を強化するだけでなく、NVIDIA AI は 3D を用いてビデオコミュニケーションを強化します。NVIDIA Research は最近、AI が最小限のキャプチャ機器で 3D ビデオ会議システムを強化する手法を示す論文を発表しました。

3D テレプレゼンスシステムは一般的に高価で、広いスペースまたは制作スタジオが必要で、高帯域幅のボリュメトリックビデオストリーミングを使用します。これらすべてがテクノロジの利用しやすさを制限しています。NVIDIA Research は、標準的なウェブカメラから 2D ビデオ入力を取得し、それを 3D ビデオ表現に変換する、新しい VisionTransformer ベースのエンコーダ上で実行される新しい手法を共有しました。会議の参加者間で 3D データをやり取りする必要なく、AI は通話の帯域幅要件を 2D 会議の場合と同じに保ちます。

このテクノロジはユーザーの 2D ビデオを取得し、ボリュームレンダリングを使用して、Neural Radiance Fields (NeRF) と呼ばれる 3D 表現を自動的に作成します。その結果、参加者は、リアルタイムでレンダリングできる高品質の 3D 表現をデコードしながら、従来のビデオ会議と同じように 2D ビデオをストリーミングできます。また、Maxine の Live Portrait を使用すると、ユーザーは自分の写真を 3D にすることができます。

AI を活用した 3D ビデオ会議は、3D キャプチャのコストを大幅に削減し、忠実度の高い 3D 表現を提供しながら、フォトリアルなまたは様式化されたアバターに対応して、ビデオ会議での相互のアイコンタクトを可能にします。関連する研究プロジェクトは、AI がどのようにコミュニケーションとバーチャルインタラクションを向上させるのに役立つかを示し、ビデオ会議向けの将来の NVIDIA テクノロジに情報を提供します。

以下のシステムの動作をご覧ください。SIGGRAPH の参加者は Emerging Technologies のブースに寄り、そこでニューヨークを拠点とする企業 Looking Glass が設計した 3D ディスプレイ上でライブデモをグループ単位で同時に見ることができます。