ネイティブのように話す: NVIDIA が音声チャレンジで勝利

by Rick Merritt · February 26, 2024

NVIDIA チームのテキスト読み上げ AI モデルが、短い音声ファイルと、話したい内容のテキストを元に、7 言語の音声を合成

アクシットアローラ (Akshit Arora) とラファエルヴァーリ (Rafael Valle) は、AIをさらに発展させる仕事に取り組んでいますが、その成果のおかげで、いつか配偶者の家族と母語で話せるようになるかもしれません。

アローラとヴァーリは、同僚のソンウォンキム (Sungwon Kim) とローハンバドラニ (Rohan Badlani) とともに LIMMITS ’24 チャレンジでトップ記録を達成しました。このチャレンジの出場者に求められたのは、元となる英語またはインドで話されている 6 つの言語で、適切なアクセントをつけてリアルタイムに話者の声を合成することです。アローラたちの新しい AI モデルが必要としたのは、わずか 3 秒間の音声サンプルだけでした。

NVIDIA のチームは、パーソナライズされた音声インターフェイスという先端領域をさらに一歩前進させました。この技術は、ベンガル語、チャッティースガリー語、ヒンディー語、カンナダ語、マラーティー語、テルグ語を母語とする 10 億人以上の人々が利用できるものとなっています。

現実味を帯びる音声インターフェイス

パーソナライズされたテキスト読み上げ翻訳のテクノロジは、まだ発展途上の段階にあります。既存のサービスでは、ターゲット言語のアクセントや話者の声のニュアンスを正確に表現できないことがあります。

LIMMITS ’24 チャレンジでは、AI モデルが生み出す音声がどれだけ自然であるか、そして元になった話者の声とどれだけ似ているかが、審査員によって評価されました。

この分野の最近の進歩を考えると、パーソナライズされたリアルな会話と体験によって近いうちに言語の壁が打ち破られることは間違いないでしょう。放送局、通信会社、大学、さらには e コマースサービスやオンラインゲーミングサービスも、こうしたテクノロジを導入して映画、講義、仮想エージェントなどを多言語化することに強い興味を示しています。

「私たちのチームは、これまでに例のない規模でこのようなことを実現できることを証明しました」とアローラは語ります。アローラには強い思いを寄せている用途が 2 つあります。

言語の壁を打ち破る

シニアデータサイエンティストとして NVIDIA の最大顧客の一つをサポートするアローラは、パンジャブ語の話者ですが、彼の配偶者とその家族はタミル語を母語としています。

アローラは自分自身や他の人々のためにも、そのような言葉の溝を埋めたいと長年考えていました。「私が通っていた学校ではヒンディー語と英語が使われていましたが、クラスメイトには、それよりも母語の方がはるかに得意な子もいました。彼らは教材の内容を理解するのに苦労していました」と彼は言います。

ブラジル出身で、彼の配偶者と家族は西インドでよく使われているグジャラート語を話すヴァーリにとって、その溝は大陸を越えています。

コンピューター音楽、機械の音声認識および即興演奏の学位を取得した AI 研究者であるヴァーリは、「これは私が毎日直面している問題です。私たちは、より明瞭な会話を実現するために多くの製品を試してきました」と話します。

AI 研究者のバドラニは、インドの 7 つの州に住んだことがあり、それぞれの州で一般的に使われている言語が違ったことがきっかけで、この分野に取り組むことになったと語っています。

時間との闘い

アローラたちの取り組みが始まったのは約 2 年前、2023 年に開催されたまったく別のチャレンジに出場するために、アローラとバドラニが 4 人チームを結成したときでした。

彼らの努力は、実用的なインド諸語用のコードベースが生み出しました。しかし、1 月に発表された勝利をつかむために、アローラたちは全力疾走が必要でした。というのも、2024 年のチャレンジがチームの目に止まったのは、期限の 15 日前だったからです。

しかし幸運なことに、NVIDIA のソウルオフィスのディープラーニング研究者であるキムが、このチャレンジに適した AI モデルの開発に取り組んでいました。

テキスト読み上げ音声合成の専門家であるキムは、2023 年に NVIDIA で 2 回目のインターンシップに参加する前に、いわゆる P-Flow モデルを開発していました。P-Flow モデルは、短い音声サンプルをプロンプトとして使用するという、大規模言語モデルで使われている技術を借用しており、再トレーニングなしで新しい入力に応答することができます。

「私が作ったのは英語用のモデルでしたが、私たちのチームはそれをあらゆる言語用に一般化できました」とキムは語っています。

キムが 1 月にフルタイムで入社する前に 2 回のインターンシップを指導したヴァーリは次のように語っています。「キムが NVIDIA に入社する前から、私たちはこのモデルについて話し、テキストメッセージを送り合っていました」