音声認識は、当初のぎこちないものから、携帯電話や車、コンピュータなどあらゆるものとのやりとりに使われるようになった今日まで、長い道のりを歩んできました。
しかし、カーネギー・メロン大学(CMU)とGoogle Brainの研究者により、より高速かつ高精度の音声認識を実現するめどが立ってきました。
研究者は音声認識への新たなアプローチを選んだ、とカーネギー・メロン大学の博士課程学生であるウィリアム・チャン(William Chan)氏は今週火曜、GPUテクノロジ・カンファレンスの聴衆を前に語りました。
「従来の音声認識のパイプラインを捨てて、単純なモデルで置き換えました」とチャン氏は言います。
ほとんどの音声認識アプリケーションは、音声をテキストに変換するための、複数のステップからなる複雑なプロセスを必要とします。例えば、各単語の音を定義した発音辞書(とそれを作成する専門家)が必要であると、この研究をまとめた論文の主執筆者のチャン氏は言います。
ほとんどの音声認識アプリケーションは、ディープラーニングを使用し、言語を理解するためにニューラル・ネットワークのトレーニングを行うものの、CMU-Googleの手法では、さらに踏み込んでこの構図から専門家を排除しています。
「私たちのモデルは、完全にデータ駆動です。音響(音声)から直接学習します」とチャン氏は言います。この手法では、音と関連付けられる単語を、人間が作成した録音データから学びます。十分な量の録音テキストに基づきトレーニングが行われると、自ら音を処理し、単語に変換できるようになります。
論文によれば、テストでは、CMU-Googleのツールは、その時点での最先端の音声認識システムを上回る、またはそれに匹敵する精度を実現しています。
CMU-Googleのツールでは、大量のデータを必要とする要素が不要なため、モバイルでの使用に適しているとチャン氏は言います。
「目標は、音響を直接英語の文字に変換することです」とチャン氏は言います。「これは単純で直接的なモデルなのです」
論文の他の執筆者であるナブディープ・ジャイトリー(Navdeep Jaitly)氏、クオック・レ(Quoc Le)氏、オリオール・ビニャルス(Oriol Vinyals)氏は、いずれもGoogle Brainのメンバーです。Google Brainは、GPUが提供する能力を必要とする、数多くのディープラーニングの取り組みの1つです。