NVIDIA チームのテキスト読み上げ AI モデルが、短い音声ファイルと、話したい内容のテキストを元に、7 言語の音声を合成
アクシット アローラ (Akshit Arora) とラファエル ヴァーリ (Rafael Valle) は、AIをさらに発展させる仕事に取り組んでいますが、その成果のおかげで、いつか配偶者の家族と母語で話せるようになるかもしれません。
アローラとヴァーリは、同僚のソンウォン キム (Sungwon Kim) とローハン バドラニ (Rohan Badlani) とともに LIMMITS ’24 チャレンジでトップ記録を達成しました。このチャレンジの出場者に求められたのは、元となる英語またはインドで話されている 6 つの言語で、適切なアクセントをつけてリアルタイムに話者の声を合成することです。アローラたちの新しい AI モデルが必要としたのは、わずか 3 秒間の音声サンプルだけでした。
NVIDIA のチームは、パーソナライズされた音声インターフェイスという先端領域をさらに一歩前進させました。この技術は、ベンガル語、チャッティースガリー語、ヒンディー語、カンナダ語、マラーティー語、テルグ語を母語とする 10 億人以上の人々が利用できるものとなっています。
現実味を帯びる音声インターフェイス
パーソナライズされたテキスト読み上げ翻訳のテクノロジは、まだ発展途上の段階にあります。既存のサービスでは、ターゲット言語のアクセントや話者の声のニュアンスを正確に表現できないことがあります。
LIMMITS ’24 チャレンジでは、AI モデルが生み出す音声がどれだけ自然であるか、そして元になった話者の声とどれだけ似ているかが、審査員によって評価されました。
この分野の最近の進歩を考えると、パーソナライズされたリアルな会話と体験によって近いうちに言語の壁が打ち破られることは間違いないでしょう。放送局、通信会社、大学、さらには e コマース サービスやオンライン ゲーミング サービスも、こうしたテクノロジを導入して映画、講義、仮想エージェントなどを多言語化することに強い興味を示しています。
「私たちのチームは、これまでに例のない規模でこのようなことを実現できることを証明しました」とアローラは語ります。アローラには強い思いを寄せている用途が 2 つあります。
言語の壁を打ち破る
シニア データ サイエンティストとして NVIDIA の最大顧客の一つをサポートするアローラは、パンジャブ語の話者ですが、彼の配偶者とその家族はタミル語を母語としています。
アローラは自分自身や他の人々のためにも、そのような言葉の溝を埋めたいと長年考えていました。「私が通っていた学校ではヒンディー語と英語が使われていましたが、クラスメイトには、それよりも母語の方がはるかに得意な子もいました。彼らは教材の内容を理解するのに苦労していました」と彼は言います。
ブラジル出身で、彼の配偶者と家族は西インドでよく使われているグジャラート語を話すヴァーリにとって、その溝は大陸を越えています。
コンピューター音楽、機械の音声認識および即興演奏の学位を取得した AI 研究者であるヴァーリは、「これは私が毎日直面している問題です。私たちは、より明瞭な会話を実現するために多くの製品を試してきました」と話します。
AI 研究者のバドラニは、インドの 7 つの州に住んだことがあり、それぞれの州で一般的に使われている言語が違ったことがきっかけで、この分野に取り組むことになったと語っています。
時間との闘い
アローラたちの取り組みが始まったのは約 2 年前、2023 年に開催されたまったく別のチャレンジに出場するために、アローラとバドラニが 4 人チームを結成したときでした。
彼らの努力は、実用的なインド諸語用のコード ベースが生み出しました。しかし、1 月に発表された勝利をつかむために、アローラたちは全力疾走が必要でした。というのも、2024 年のチャレンジがチームの目に止まったのは、期限の 15 日前だったからです。
しかし幸運なことに、NVIDIA のソウル オフィスのディープラーニング研究者であるキムが、このチャレンジに適した AI モデルの開発に取り組んでいました。
テキスト読み上げ音声合成の専門家であるキムは、2023 年に NVIDIA で 2 回目のインターンシップに参加する前に、いわゆる P-Flow モデルを開発していました。P-Flow モデルは、短い音声サンプルをプロンプトとして使用するという、大規模言語モデルで使われている技術を借用しており、再トレーニングなしで新しい入力に応答することができます。
「私が作ったのは英語用のモデルでしたが、私たちのチームはそれをあらゆる言語用に一般化できました」とキムは語っています。
キムが 1 月にフルタイムで入社する前に 2 回のインターンシップを指導したヴァーリは次のように語っています。「キムが NVIDIA に入社する前から、私たちはこのモデルについて話し、テキスト メッセージを送り合っていました」
誰でも別の言語の声を得られるように
P-Flow は間もなく NVIDIA Riva の機能のひとつとなる予定です。NVIDIA Riva は多言語音声や翻訳 AI のソフトウェアを構築するためのフレームワークであり、NVIDIA AI Enterprise ソフトウェア プラットフォームに含まれています。
この新機能により、ユーザーはデータセンター内、個人のシステム上、パブリック クラウドまたはプライベート クラウド サービス内に P-Flow モデルを展開できるようになります。現在、音声翻訳サービスは一般的に、パブリック クラウド サービス上で実行されています。
「お客様にはぜひこのテクノロジを試していただきたいと思います。私たちが日々取り組んでいる仕事をこのようなコンテストで披露できるのは嬉しいことです」と、アローラは語っています。
アローラたちが参加したコンテストは、インドで最も広く話されている 9 言語のオープンソース データセットと AI モデルの開発を目標としたイニシアティブの一環として開催されています。
来月の GTC で行われるセッションで、アローラとバドラニが自分たちの経験をお話ししますので、ぜひご参加ください。
また、彼らのチームの AI モデルの成果を以下に紹介します。最初の音声は、カンナダ語のネイティブ スピーカーが話す 3 秒間のサンプルです。
次は、このブログ記事の最初の文をヒンディー語で読んでいる合成音声です。サンプルのものと近い声に聞こえます。
そして最後は英語での音声です。
ソフトウェア製品情報に関する注意事項をご確認ください。