放送局 Te Hiku Media の自動音声認識モデルは、信頼できる AI と NVIDIA NeMo ツールキットを使用して、92% の精度でテ レオ マオリ (マオリ語) を書き起こします
先住民の言語が脅威にさらされています。ユネスコによれば、今世紀末までに全体の 4 分の 3 に当たる約 3,000 の言語が、2 週間に 1 つというスピードで消滅する可能性があるとのことです。
このような言語を保護する動きの一環として、ニュージーランドの Te Hiku Media は、マオリ族の固有言語であるテ レオに焦点を当てた放送局で、信頼できる AI を使用して、この言語の保護と復興に取り組んでいます。
マオリ族のデータ主権を維持するため、倫理的で透明性の高い方法で音声データの収集と分析を行う Te Hiku Media は、ポリネシア語であるテ レオの自動音声認識 (ASR) モデルを開発しています。
ASR 向けでオープンソースの NVIDIA NeMo ツールキットと NVIDIA A100 Tensor コア GPU を使用して構築された Speech-to-Text モデルは、92% の精度でテ レオを書き起こします。また、英語とテ レオのバイリンガル音声を 82% の精度で書き取ることもできます。マオリの人々により、マオリの人々のために作られたこの重要なツールによって、彼らのストーリーを保存し、広めていくことができます。
Te Hiku Media の最高技術責任者 (CTO) であり、データ サイエンティストや開発者、マオリ語の専門家やデータ キュレーターからなるチームを率いてプロジェクトに取り組んでいる Keoni Mahelona 氏は次のように述べています。「NVIDIA のオープンソース技術を使用して、テ レオ マオリの保存、普及、復興という私たちの使命を実現するために必要なツールを構築することは、計り知れない価値があります」
現在ニュージーランドに住む、ハワイ先住民の Keoni Mahelona 氏は次のように付け加えました。「私たちはまた、データやテクノロジーが社会から疎外されたコミュニティのエンパワーメントのために使用されるよう、倫理的な使用方法について業界を導く手助けをしています」
「言論の家」を建設
Te Hiku Media は 30 年以上前、テ レオの放送スペースを確保することを目的としたラジオ局として始まりました。その後、テレビ放送も取り入れ、インターネットの台頭とともに、2013 年にはコミュニティの長老たちと会議を開き、デジタル時代におけるコンテンツ共有の戦略を練りました。
Keoni Mahelona 氏は次のように述べています。「長老たちは、アーカイブをカセット テープのまま箱にしまっておくのではなく、コミュニティのメンバーがオンラインでストーリーにアクセスできるようにするべきだということで合意しました。しかし、その目的ができた後は、主権を重んじるという私たちの強いルーツに沿った形で、どのようにこれを正しく行うかが課題となりました」
Te Hiku Media は、利用規約上、コンテンツに関連する特定の権利への署名を必要とする人気のあるグローバルなプラットフォームにビデオやオーディオ ソースをアップロードする代わりに、独自のコンテンツ配信プラットフォームを構築することを決めました。
Whare Kōrero (「言論の家」という意味) と呼ばれるこのプラットフォームには、30 年以上にわたってデジタル化されたアーカイブ資料が約 1,000 時間分保存されており、その中には、19 世紀後半に生まれたネイティブ スピーカーのテ レオや、第二言語学習者やバイリンガルのマオリ族による最新のコンテンツも含まれています。
現在、約 20 のマオリ ラジオ局が Whare Kōrero を利用し、コンテンツをアップロードしています。コミュニティのメンバーは、アプリを通じてコンテンツにアクセスすることができます。
「音源データの貴重なリソースです」と Mahelona 氏は言いました。
信頼できる AI への転換
Te Hiku Media のチームは、このような宝の山が、言語の活性化に取り組む人々にとって信じられないほどの価値があることにすぐに気づきました。しかし、手作業による文字起こしには、限られたリソースから多くの時間と労力を必要とするものでした。そこで、ASR を使用して作業を加速させるため、2016 年に同団体の信頼できる AI への取り組みが始まりました。
Keoni Mahelona 氏は次のように述べています。「ニュージーランドの北の果てにある、廃墟のような、古ぼけた、黴臭い匂いのする建物に、NVIDIA A100 GPU が 8 基もあり、マオリ語モデルをトレーニングし、構築しているなんて、誰も想像できないでしょう。ですが、この仕事は我々にとって画期的なことでした」
Te Hiku Mediaは、透明性があり、倫理的に遵守されたコミュニティ指向の方法で音声データを収集するため、年長者にその目的を説明しました。そして、彼らの支持を集め、局に来てフレーズを音読してもらうことから始めました。
Mahelona 氏は次のように述べています。「年長者の支持を得て、彼らの声を録音することは本当に重要でした。なぜならそれは私たちが書き起こしたいコンテンツだからです。しかし、最終的にこの努力はうまくいきませんでした。第二言語学習者、子供、中高年、そして広く一般的にもっと多くの音声データが必要だったのです」
そこで Te Hiku Media は、マオリの人々のためにのみデータを使用することを保証する Kaitiakitanga ライセンスに従って、高度にラベル付けされた音声サンプルを収集するために、クラウドソーシング キャンペーン「Kōrero Māori」を実施しました。
わずか 10 日間で、2,500 人以上が登録して 20 万以上のフレーズを読み、300 時間以上のラベル付き音声データが提供され、これらのデータは、テ レオ マオリ ASR モデルの構築とトレーニングに使用されました。
他のオープンソースの信頼できる AI ツールに加え、Te Hiku Media は現在、パイプライン全体を通して、音声 AI に NVIDIA NeMo ツールキットの ASR モジュールを使用しています。NeMo ツールキットは、ニューラル モジュールと呼ばれるビルディング ブロックで構成され、言語モデル開発のための事前トレーニング済みモデルが含まれています。
「NVIDIA のオープンソースである NeMo は、私たちの ASR モデルをバイリンガルにし、書き起こしに自動で句読点を追加してくれたことは本当に信じられないことでした」と Mahelona 氏は述べています。
Te Hiku Mediaの ASR モデルは、現在オンラインで利用可能なテ レオ マオリの書き起こしサービス Kaituhi を支えるエンジンです。
この取り組みは、ハワイ先住民やカナダ南東部のモホーク族が現在進めている同様の ASR プロジェクトに弾みをつけています。
Mahelona 氏は、次のように述べています。「信頼できる AI における先住民主導の仕事は、彼らができるのなら私たちにもできるはずだ、という考えを他の先住民グループに認識してもらうことです」
NVIDIA が提供する信頼できる AI、NVIDIA NeMo ツールキット、そしてそれがどのようにしてテルグ語音声 AI の画期的な進歩を可能にしたのか、その詳細をご覧ください。