言葉の力: 対話型 AI が成功のテキストを書き換える

業界を超えて、ディープラーニングで文字と音声を業績に変える企業が増加中。

2018 年 3 月にスタートアップの Kensho が S&P Global に 5 億 5,000 万ドルで買収されたとき、ゲオルクククスコ (Georg Kucsko) 氏は、お菓子屋さんにいる子供のような気持ちになりました。

Kensho の AI 研究の責任者である同氏とそのチームのもとに、ウィリーウォンカのゴールデンチケットの 1 枚が舞い落ちてきた――つまり、S&P が録音し、苦労して文字起こしした 10 万時間分の音声ファイルが手に入ったのです。

このデータセットに助けられて、Kensho は金融業界で最も正確な音声認識ソフトウェアとされる Scribe を作りました。Scribe は決算説明会やその他のビジネス会議を素早く低コストで文字起こしして、S&P のカバレッジを 1,500 社増やすのに貢献し、同社の CEO 自らが行う四半期ごとの説明会で称賛を受けました。

ククスコ氏は次のように述べています。「この文字起こしデータを使って、音声認識モデルの仕事がもっと速くなるよう学習させました。これは誰も考え付かなかった新しい視点であり、おかげで処理を劇的に改善することができました」

これは、対話型 AI が持つ多くの力の一例です。

なぜこれほど話題になっているのか

対話型 AI が話題になっているのには多くの理由があります。

対話型 AI は、音声を検索可能なテキストに変換できます。また、テキストを音声に変換して、仕事中や運転中にハンズフリーで聞けることができます。

学習すればするほど、聞いたり読んだりしたものの理解が深まり、さらに便利になります。だからこそ、この対話型 AI は急速に広まっているのです。

対話型 AI は、Siri や Alexa の言語として最も知られているかもしれませんが、知名度の高いバーチャルアシスタントのほかに、様々な音声エージェントも増え続けています。

企業は、この技術を使って契約を管理しています。医師は、患者の診察中にメモを取るのに利用しています。そして多くの企業が、カスタマーサポートを改善するために対話型 AI を活用しています。

あらゆる分野の言葉をカバーする

「売り手と買い手の間ではきわめて幅広い会話が行われており、私たちは人々が会話を進めるのを支援できますし、支援すべきなのです」。Square の対話型 AI エキスパートであるガボールアンジェリ (Gabor Angeli) 氏はこのように述べ、GTC Digital のセッションで同社の取り組みについて紹介しました。

Deloitte は、企業における複雑な契約の管理を支援する同社の dTrax ソフトウェアで対話型 AI を使っています。たとえば、dTrax は、法規の変更があったときや企業が大きな買収を計画しているときに、長大な契約書の中から鍵となる一節を見つけ出し、更新することができます。このソフトウェアは NVIDIA GPU 上で実行されており、2019 年にフィナンシャルタイムズ紙のスマートビジネス賞を受賞しました。

中国最大の保険会社である中国平安は、すでに保険の販売に対話型 AI を使用しています。対話相手の気分や感情を正確に測定するには多くのインテリジェンスが求められるので、GPU で動作する大きなパフォーマンスを必要とするアプリケーションです。

ヘルスケア分野では、Nuance が NVIDIA の GPU とソフトウェアで学習した対話型 AI ソフトウェアを提供しており、ほとんどの放射線科医はこれを文字起こしに使い、その他の多くの医師は、患者の診察結果を文書化するのに使用しています。

Voca.ai は、推論ジョブのレイテンシを CPU と比べて半分に減らすために、AI モデルを NVIDIA GPU 上で展開しています。これは、同社の最大規模のユーザーの 1 社に対して、毎月 1,000 万人もの人からカスタマーサポートに電話があり、それに対する応答を自動化する Voca.ai のサービスにとっての鍵となっています。

自動対話を組み立てる

対話型 AI の技術は、幅広い対話型 AI ライブラリのソフトウェアを基盤に作られており、すべて GPU で高速化されています。非常に人気の高いものは、GitHub リポジトリでたくさんの「スター」を獲得します (Facebook の「いいね」やブラウザーのブックマークに相当)。それには以下のようなライブラリがあります。

Huggingface、26,100 スター
Fast.ai、17,800 スター
spaCy、16,300 スター
Kaldi、8,700 スター
DeepPavlov、4,200 スター
ESPnet、2,200 スター

対話型 AI をより簡単に始められるようにするために、NVIDIA はさらに多くのソフトウェアツール群を提供しています。

Kensho と Voca.ai は、すでに NVIDIA NeMo を使って最先端の対話型 AI アルゴリズムを作成しています。どのような企業でも、これらの機械学習モデルやディープラーニングモデルを自社のデータでファインチューニングすれば、特定のユースケース向けの最適な精度を実現できます。

昨年の秋に NVIDIA が NeMo を発表したとき、Jasper も同時にリリースされました。Jasper は 54 層から成る自動音声認識モデルで、単語のエラー率を 3% 未満まで下げることができます。精度を最適化されたいくつかのモデルの 1 つであり、NVIDIA の GPU 高速化ソフトウェアのカタログである NGC から入手可能です。

対話型 AI 係りの Jarvis にあいさつを

NVIDIA は先日、視覚、音声、言語理解を融合した AI サービスの構築、展開のためのアプリケーションフレームワーク、NVIDIA Jarvis を発表しました。このサービスは、クラウド、データセンター、エッジのどの分野でも展開することができます。

Jarvis には、各企業やその顧客に特有の用語を理解できる、GPU で高速化された対話型 AI アプリケーションを作成するためのディープラーニングモデルが含まれます。そのモデルを特定の分野や顧客のデータに基づいて学習するための NeMo も含まれています。モデルは TensorRT を利用して、AI の推論タスクでレイテンシを最小化し、スループットを最大化することができます。

Jarvis のサービスは、A100 GPU 上で 150 ミリ秒で実行できます。これは、リアルタイムアプリケーションのしきい値である 300 ミリ秒よりも、また同じモデルを CPU で実行した場合にかかるであろう 25 秒よりも、はるかに高速です。