マイクロソフトの研究者チームが音声認識の世界記録を塗り替えました。この研究では、同社が発表したテクノロジのほか、人間と同様に会話内の単語を認識できる GPU アクセラレーテッド ディープラーニングが利用されています。
同チームは、自動音声認識における過去最低のエラー率である 5.9% を達成しました。これは、人間が同じ会話を認識する場合に近い精度です。また、マイクロソフトがそのわずか 1 カ月前に樹立した記録から 6% も向上しています。
マイクロソフトのチーフ スピーチ サイエンティストであり、発表された論文の共著者であるゼドン ファン (Xuedong Huang) 氏は、次のように述べています。「私たちは人間と同等の精度を達成しました。これは歴史的な快挙です」。
コンピューターの課題である会話音声
音声認識の最大の課題のいくつかは会話音声によるものだと、マイクロソフトの Speech & Dialog リサーチ グループを率いるジェフリー ツヴァイク (Geoffrey Zweig) 氏は言います。
「音声認識が難しくなるのは、人が話し言葉でしゃべる場合や興奮している場合、間違って言い直す場合、話題を変える場合などです。これらはすべて、会話音声の特徴です。」
同チームは、会話音声認識におけるその画期的なテクノロジをディープラーニング (具体的には、畳み込みリカレント ニューラル ネットワークの体系的利用) に組み込んでいます。また、最近の研究では、Long Short-Term Memory (LSTM) と呼ばれるリカレント ニューラル ネットワークの一種を言語モデルに採用しました。
LSTM ネットワークには、情報をより長期的に「記憶」できるという利点があるため、ほとんどのニューラル ネットワーク言語モデルよりも単語への感度が高まります。
強力な GPU が進歩を加速
会話音声認識で人間と同等の精度を達成するにあたって、NVIDIA の GPU とマイクロソフトのオープンソース ディープラーニング フレームワークである Cognitive Toolkit (旧称: CNTK) が重要な役割を果たしました。マイクロソフトが発表した Cognitive Toolkit は、GPU での音声認識、画像認識、検索の関連性といった領域の進歩を加速させるために使用されるディープラーニング用システムです。
「GPU のコンピューティング能力がなければ、この研究は不可能だったでしょう」と、ツヴァイク氏は振り返り、次のように続けます。
「チームは、NVIDIA の Tesla M40 GPU を使用することによって、いくつかの言語モデルのトレーニング時間を数か月から数週間に短縮しました。私たちが研究を進められる速度は、実験を何回行えるか、その回数に関係しているため状況が一変しました」。
パーティでも音声を認識
パーティや街中などの実際の生活環境で音声認識の精度を上げるには、さらなる研究が必要です。そういった場所では、音楽や、車の音、人の話し声など、さまざまな種類の背景雑音が存在することが考えられます。また、同チームは、会議での会話音声認識を向上させる取り組みも進めています。会議では、複数の話し手がマイクから異なる距離に座っていることが一般的なためです。
ツヴァイク氏は、次のように述べています。「この画期的な研究の成果により、マイクロソフトは、自社の Cortana パーソナル デジタル アシスタントや Xbox ゲーム コンソールなどの製品に、新世代の高度音声認識をすばやく展開するための適切なツールを手に入れたことになります」。
同チームの長期目標は「音声認識」から「理解」へと移行するとだと、同氏は言います。これにより、デバイスが質問に答えたり、指示された内容に基づいて行動をとったりすることが可能になるでしょう。
AI における今後の取り組みの詳細については、NVIDIA の CEO であるジェンスン・ファン (Jen-Hsun Huang) のレポート「NVIDIA CEO が予測する、AI 活用の産業革命」をご覧ください。