世界で最も柔軟性の高いサウンド マシンがデビュー

NVIDIA の新しい生成 AI モデルは、テキストとオーディオを入力として使用し、音楽、音声、サウンドのあらゆる組み合わせを作成可能
投稿者: Richard Kerris

生成 AI の研究者チームが、ユーザーがテキストだけで音声出力を制御できる音の万能ツールを開発しました。

これまでの AI モデルの中には、曲を作曲したり音声を変更したりするものもありましたが、この新しいモデルほど多機能なモデルはありません。

Fugatto (Foundational Generative Audio Transformer Opus 1 の略) と呼ばれるこのモデルは、テキストと音声ファイルの任意の組み合わせを使用して、プロンプトで記入された音楽、音声、サウンドの任意の組み合わせを生成または変換します。

例えば、テキスト プロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、これまで聞いたことのないサウンドを生成したりすることも可能です。

マルチプラチナム プロデューサー兼ソングライターであり、最先端のスタートアップ企業向けの NVIDIA Inception プログラムのメンバーである One Take Audio の共同創設者、Ido Zmishlany 氏は述べています。「これは素晴らしいです。サウンドは私のインスピレーションであり、私が音楽を作る原動力です。スタジオでまったく新しいサウンドを即座に作成できるというアイデアは、斬新です」

オーディオの生成および変換をサポート

「私たちは、人間のようにサウンドを理解して生成するモデルを作りたかったのです」と、NVIDIA の応用オーディオ研究マネージャーであり、Fugatto の開発に携わった 10 人以上のスタッフの 1 人で、さらにオーケストラの指揮者兼作曲家でもある Rafael Valle (ラファエル ヴァレ) は語ります。

多数のオーディオ生成および変換タスクをサポートする Fugatto は、様々なトレーニング済みの能力の相互作用から生じる創発特性と、自由形式の指示を組み合わせる機能を備えた、最初の基盤生成 AI モデルです。

「Fugatto は、大規模なデータとモデルからオーディオ合成および変換における教師なしマルチタスク学習が生まれる未来に向けた第一歩です」と Valle は話します。

ユースケースのサンプル プレイリスト

例えば、音楽プロデューサーは Fugatto を使用して、様々なスタイル、声、楽器を試しながら、歌のアイデアをすばやく試作したり編集したりできます。また、エフェクトを追加したり、既存のトラックの全体的なオーディオ品質を向上させたりすることも可能です。

Zmishlany 氏は次のように話しています。「音楽の歴史はテクノロジの歴史でもあります。エレキギターは世界にロックンロールをもたらしました。サンプラーが登場すると、ヒップホップが生まれました。AI によって、私たちは音楽の次の章を書き始めています。私たちは新しい楽器、音楽を作るための新しいツールを手に入れました。これはとてもエキサイティングなことです」

広告代理店は、Fugatto を適用して、既存のキャンペーンを複数の地域や状況にすばやくターゲティングし、ナレーションに様々なアクセントや感情を適用することができます。

言語学習ツールは、話者が選択した任意の声を使用するようにパーソナライズできます。例えば、家族や友人の声で話されるオンラインのコースを想像してみてください。

ビデオ ゲーム開発者は、このモデルを使用して、タイトル内の録音済みアセットを変更し、ユーザーがゲームをプレイするときに変化するアクションに合わせることができます。または、テキストの説明とオプションの音声入力から新しいアセットをその場で作成することもできます。

楽しい音を生み出す

「このモデルの機能の中で、特に誇りに思っているのは、アボカド チェアと呼んでいるものです」と、Valle は語りました。これは、画像生成 AI モデルによって作成された斬新なビジュアルにちなんだ言葉です。

例えば、Fugatto はトランペットが犬のように吠える音や、サックスが猫のように鳴く音を出すことができます。ユーザーが説明できるものなら何でも、このモデルは作成できます。

研究者は、ファインチューンと少量の歌唱データにより、テキスト プロンプトから高品質の歌声を生成するなど、事前トレーニングされていないタスクを処理できることを発見しました。

ユーザーは芸術的なコントロールを手中に

これらの他にも、いくつかの機能によって Fugatto の斬新さは実現されています。

推論中、このモデルは ComposableART と呼ばれる技術を使用して、トレーニング中では個別にしか見られなかった指示を組み合わせます。例えば、プロンプトの組み合わせにより、フランス語のアクセントで悲しい気持ちで話されたテキストを要求することができます。

モデルの指示間の補間機能により、ユーザーはテキスト指示、この場合はアクセントの重さや悲しみの度合いを細かく制御可能になります。

モデルのこれらの側面を設計した AI 研究者の Rohan Badlani (ローハン バドラニ) は次のように話しています。「ユーザーが主観的または芸術的な方法で属性を組み合わせて、それぞれにどの程度重点を置くかを選択できるようにしたかったのです」

「テストでは結果に驚くことが多く、自分はコンピューター科学者であるにもかかわらず、少しアーティストになったような気分になりました」と、スタンフォード大学で AI を専門とするコンピューター サイエンスの修士号を取得した Badlani は語ります。

このモデルは、時間の経過とともに変化するサウンドも生成し、Badlani はこれを時間的補間と呼んでいます。例えば、豪雨が地域を通り抜ける音の中で、雷鳴が徐々に高まり、その後ゆっくりと遠ざかって消えていく音を作り出すことができます。また、サウンドスケープがどのように変かするかをユーザーが細かく制御可能です。

さらに、ほとんどのモデルでは、これまで公開されたトレーニング データしか再現できなかったところが、Fugatto では、雷雨が鳥のさえずる夜明けにゆっくりと移行していくなど、これまでに見たことのないサウンドスケープをユーザーが作成できます。

内部の仕組み

Fugatto は、音声モデリングオーディオ ボコーディングオーディオ理解などの分野でのチームのこれまでの取り組みを基に構築された、基盤生成 Transformer モデルです。

フルバージョンでは 25 億のパラメーターが使用され、32 基の NVIDIA H100 Tensor コア GPU を搭載した複数台の NVIDIA DGX システムでトレーニングされました。

Fugatto は、インド、ブラジル、中国、ヨルダン、韓国など、世界中の様々な人々によって作成されました。彼らのコラボレーションにより、Fugatto の多アクセントおよび多言語機能が強化されました。

この取り組みで最も困難だったのは、トレーニングに使用する何百万ものオーディオ サンプルを含む混合データセットを生成することでした。チームは多面的な戦略を採用してデータと指示を生成し、モデルが実行できるタスクの範囲を大幅に拡大するとともに、より正確なパフォーマンスを実現し、追加データを必要とせずに新しいタスクを実行できるようにしました。

また、既存のデータセットを精査して、データ間の新しい関係を明らかにしました。全体的な作業は 1 年以上にわたりました。

Valle は、チームが手応えを感じた 2 度の瞬間を覚えています。「プロンプトから初めて音楽を生成したとき、私たちは心底驚いたものです」と彼は言います。

その後、チームはビートに合わせて犬が吠える電子音楽というプロンプトを Fugatto に与え、Fugatto はそれに応答しました。

「Fugatto の応答でグループが笑いに包まれたとき、本当に心が温かくなりました」と、Valle は回想します。

Fugatto が何ができるのか聞いてみましょう。